Hauptkomponentenanalyse

Die Hauptkomponentenanalyse (kurz: HKA, englisch Principal Component Analysis, kurz: PCA) – das mathematische Verfahren ist auch als Hauptachsentransformation oder Singulärwertzerlegung bekannt – ist ein Verfahren der multivariaten Statistik. Sie strukturiert umfangreiche Datensätze durch Benutzung der Eigenvektoren der Kovarianzmatrix. Dadurch können Datensätze aus ratio-skalierten Variablen vereinfacht und veranschaulicht werden, indem eine Vielzahl statistischer Variablen durch eine geringere Zahl möglichst aussagekräftiger Linearkombinationen (die Hauptkomponenten) genähert wird.

Die Hauptkomponentenanalyse zählt somit zu den Ordinationen. Zur Anwendung kommt die Hauptkomponentenanalyse als Karhunen-Loève-Transformation im Besonderen in der Signal- und dort speziell der Bildverarbeitung. Sie ist von der Faktorenanalyse zu unterscheiden, mit der sie formale Ähnlichkeit hat und in der sie als Näherungsmethode zur Faktorenextraktion verwendet werden kann (der Unterschied der beiden Verfahren wird im Artikel Faktorenanalyse erläutert). Es gibt verschiedene Verallgemeinerungen der Hauptkomponentenanalyse, z. B. die Principal Curves, die Principal Surfaces, t-distributed stochastic neighbor embedding oder die Kernbasierte Hauptkomponentenanalyse (kernel principal component analysis, kurz: kernel PCA).

Geschichte

Die Hauptkomponentenanalyse wurde von Karl Pearson 1901 eingeführt^[1] und in den 1930er Jahren von Harold Hotelling weiterentwickelt. Wie andere statistische Analysemethoden erlangte sie weite Verbreitung erst mit der zunehmenden Verfügbarkeit von Computern im dritten Viertel des 20. Jahrhunderts. Die ersten Anwendungen entstammten der Biologie.

Konzeption der Hauptkomponentenanalyse

Der zugrundeliegende Datensatz hat typischerweise die Struktur einer Matrix: An $n$ Versuchspersonen oder Gegenständen wurden jeweils $p$ ratio-skalierte Merkmale gemessen. Ein solcher Datensatz kann als Menge von $n$ Punkten im $p$ -dimensionalen Raum $\mathbb {R} ^{p}$ veranschaulicht werden. Ziel der Hauptkomponentenanalyse ist es, diese Datenpunkte so in einen $q$ -dimensionalen Unterraum $\mathbb {R} ^{q}$ ( $q<p$ ) zu projizieren, dass dabei möglichst wenig Information verloren geht und vorliegende Redundanz in Form von Korrelation in den Datenpunkten zusammengefasst wird.^[2]

Die Arbeitsweise der Hauptkomponentenanalyse zerfällt in drei Schritte, Translation, Rotation und Projektion^[3]. Sie lässt sich gut mit Hilfe einer geometrischen Metapher veranschaulichen^[4]. Die gerade beschriebene Punktwolke wird so verschoben (Translation), dass ihr Mittelpunkt (Zentroid; Vektor der Variablen-Mittelwerte) auf dem Ursprung eines neuen Koordinatensystems zu liegen kommt. Dann wird die Punktwolke so um diesen Ursprung gedreht (Rotation), dass ihre 'Längsachse' – gemessen als Größe der gemeinsamen Streuung (Kovarianz) – der ersten Achse des neuen Koordinatensystems entspricht, ihre 'Breitenachse', der zweiten Achse des neuen Systems, ihre 'Höhenachse' der dritten usw. Die genaue Lösung für die optimale Rotation ergibt sich aus den Eigenvektoren der Streuungsmatrix (s. u.). Der zumeist abgebildete Biplot ist nach dieser Metapher derjenige zweidimensionale Schatten der multidimensionalen Punktwolke (Projektion), der die Abstände zwischen den Punkten 'am besten' in einer zweidimensionalen Ebene zeigt. Der Anteil der Eigenwerte dieser ersten zwei sog. Hauptachsen an der Summe aller Eigenwerte ist vereinfacht gesagt der Anteil der Unterschiede (Abstände) zwischen den Punkten, den man maximal in einer Ebene zeigen kann. Die zwei Varianten, nämlich die Verwendung der Kovarianzmatrix oder der Korrelationsmatrix, entsprechen in der Metapher der Verwendung der unveränderten Punktwolke (Kovarianzen) bzw. der zuvor entlang der ursprünglichen Variablen gestauchten oder gestreckten Punktwolke (Korrelationen). Die zweite Variante muss angewendet werden^[5], wenn die Variablen des analysierten Datensatzes in unterschiedlichen Maßeinheiten ausgedrückt sind. Ohne diesen Schritt wären die Ladungen (s. u.) nicht deutbar.

Mathematisch wird eine Hauptachsentransformation durchgeführt: Man minimiert die Korrelation mehrdimensionaler Merkmale durch Überführung in einen Vektorraum mit neuer Basis. Die Hauptachsentransformation lässt sich durch eine orthogonale Matrix angeben, die aus den Eigenvektoren der Kovarianzmatrix gebildet wird. Die Hauptkomponentenanalyse ist damit problemabhängig, weil für jeden Datensatz eine eigene Transformationsmatrix berechnet werden muss. Die Rotation des Koordinatensystems wird so ausgeführt, dass die Kovarianzmatrix diagonalisiert wird, d. h., die Daten werden dekorreliert (die Korrelationen sind die Außerdiagonaleinträge der Kovarianzmatrix). Für normalverteilte Datensätze bedeutet dies, dass die einzelnen Komponenten jedes Datensatzes nach der PCA voneinander statistisch unabhängig sind, da die Normalverteilung durch das nullte (Normierung), erste (Erwartungswert) und zweite Moment (Kovarianzen) vollständig charakterisiert wird. Sind die Datensätze nicht normalverteilt, werden die Daten auch nach der PCA – obwohl nun dekorreliert – noch immer statistisch abhängig sein. Die PCA ist also nur für normalverteilte Datensätze eine „optimale“ Methode.

Verfahren

Erste Hauptkomponente der Daten (schwarz-dunkelrote Linie) und der Mittelpunkt der Daten (dicker schwarzer Punkt)

Idee

Die Daten liegen als Punktwolke in einem $p$ -dimensionalen kartesischen Koordinatensystem vor.

Beste lineare Approximation an den Datensatz

Das Berechnen der Hauptkomponenten kann man als iterativen Prozess auffassen. In der rechten Grafik wird für die Datenpunkte (nicht ausgefüllte Kreise) diejenige Gerade gesucht, die die Daten am besten approximiert. Der Fehler eines Datenpunktes ist der euklidische Abstand zwischen der Geraden und den Datenpunkten. Für den Datenpunkt rechts oben ist der Fehler die rote Linie, die senkrecht auf der schwarzen Geraden steht. Die erste Hauptkomponente ist die Gerade, bei der die Summe der Quadrate dieser Fehler minimal ist (Vergleiche Deming-Regression).

Danach wird eine weitere Gerade gesucht, die auch durch den Mittelwert der Datenpunkte geht und orthogonal zur ersten Geraden ist: die zweite Hauptkomponente. Im Falle zweidimensionaler Daten ist dies einfach die senkrecht auf der ersten Hauptkomponente stehende Gerade. Ansonsten ist die jeweils nächste Hauptkomponente senkrecht zu allen bisherigen Hauptkomponenten; mit dieser Bedingung wird wieder die Gerade bestimmt, bei der die Quadratsumme der Abstände minimal ist. So können die weiteren Geraden bis zur $p$ -ten Hauptkomponente bestimmt werden.

Maximierung der Varianz

Die Distanz zwischen dem Zentrum der Daten und einem Datenpunkt ist unabhängig davon, welche Gerade durch das Zentrum als „Referenz“ betrachtet wird (siehe die rote Linie vom Zentrum der Daten zum Datenpunkt rechts oben). Mittels des Satzes von Pythagoras können wir aber den Abstand zerlegen in den Anteil in Richtung der schwarzen Geraden und einen weiteren Anteil rechtwinklig dazu. Eine Minimierung der Abstände rechtwinklig zur Geraden (unter Beibehaltung des Abstands zum Datenzentrum, Länge der roten Linie) bedeutet also eine Maximierung der Abstände in Richtung der schwarzen Geraden ( $a^{2}+b^{2}=c^{2}$ muss erhalten bleiben). Die aufsummierten Quadrate der Abstände in Richtung der schwarzen Geraden bilden die Varianz der Daten in dieser Richtung.

Dies führt zum folgenden Algorithmus: Die erste Achse soll so durch die Punktwolke gelegt werden, dass die Varianz der Daten in dieser Richtung maximal wird. Die zweite Achse steht auf der ersten Achse senkrecht. In ihrer Richtung ist die Varianz am zweitgrößten usw.

Für die $p$ -dimensionalen Daten gibt es also grundsätzlich $p$ Achsen, die aufeinander senkrecht stehen, sie sind orthogonal. Die totale Varianz der Daten ist die Summe dieser „Achsenvarianzen“. Mit den $p$ Achsen wird nun ein neues Koordinatensystem in die Punktwolke gelegt. Das neue Koordinatensystem kann als Rotation der Variablenachsen dargestellt werden.

Wird nun durch die ersten $r'$ ( $r'<p$ ) Achsen ein hinreichend großer Prozentsatz der totalen Varianz abgedeckt, erscheinen die Hauptkomponenten, die durch die neuen Achsen repräsentiert werden, ausreichend für den Informationsgehalt der Daten. Die totale Varianz der Daten ist also ein Maß für ihren Informationsgehalt.

Häufig können die Hauptkomponenten inhaltlich nicht interpretiert werden. In der Statistik spricht man davon, dass ihnen keine verständliche Hypothese zugeschrieben werden kann (siehe Faktorenanalyse).

Statistisches Modell

Man betrachtet $p$ Zufallsvariablen $X_{j}$ , die bezüglich ihrer Erwartungswerte zentriert sind. Das heißt, ihre Erwartungswerte wurden von der Zufallsvariablen subtrahiert. Diese Zufallsvariablen werden in einem $p$ -dimensionalen Zufallsvektor $\mathbf {X}$ zusammengefasst. Dieser hat als Erwartungswertvektor den Nullvektor und die $(p\times p)$ -Kovarianzmatrix $\mathbf {\Sigma } =E[\mathbf {X} \mathbf {X} ^{T}]$ , die symmetrisch und positiv semidefinit ist. Die Eigenwerte $\lambda _{j}$ , $j=1,\dots ,p$ , der Matrix $\mathbf {\Sigma }$ sind absteigend der Größe nach geordnet (häufig werden die Eigenwerte dann in einem Paretodiagramm dargestellt). Sie werden als Diagonalelemente in der Diagonalmatrix $\mathbf {\Lambda }$ aufgeführt. Die zu ihnen gehörenden Eigenvektoren bilden die orthogonale Matrix $\mathbf {\Gamma }$ . Es gilt dann $\mathbf {\Lambda } =\mathbf {\Gamma } ^{T}\mathbf {\Sigma } \mathbf {\Gamma } .$

Wird der Zufallsvektor $\mathbf {X}$ linear transformiert zu $\mathbf {X} \mapsto \mathbf {Y} =\mathbf {\Gamma } ^{T}\mathbf {X}$ , dann ist die Kovarianzmatrix von $\mathbf {Y}$ gerade die Diagonalmatrix $\mathbf {\Lambda }$ , da für die die Kovarianzmatrix des transformierten Zufallsvektors gilt:

E[\mathbf {\Gamma } ^{T}\mathbf {X} (\mathbf {\Gamma } ^{T}\mathbf {X} )^{T}]=E[\mathbf {\Gamma } ^{T}\mathbf {X} \mathbf {X} ^{T}\mathbf {\Gamma } ]=\mathbf {\Gamma } ^{T}E[\mathbf {X} \mathbf {X} ^{T}]\mathbf {\Gamma } =\mathbf {\Gamma } ^{T}\Sigma \mathbf {\Gamma } =\mathbf {\Lambda }

.

Zur Verdeutlichung betrachten wir einen dreidimensionalen Zufallsvektor

\mathbf {X} ={\begin{pmatrix}X_{1}\\X_{2}\\X_{3}\end{pmatrix}}

.

Die Matrix der Eigenwerte der Kovarianzmatrix $\mathbf {\Sigma }$ von $\mathbf {X}$ ist

\mathbf {\Lambda } ={\begin{pmatrix}\lambda _{A}&0&0\\0&\lambda _{B}&0\\0&0&\lambda _{C}\end{pmatrix}},

wobei $\lambda _{A}\geq \lambda _{B}\geq \lambda _{C}$ ist.

Die normierten $(3\times 1)$ -Eigenvektoren ${\boldsymbol {\gamma }}_{j}$ lassen sich als Spalten der Matrix $\mathbf {\Gamma }$ zusammenfassen:

\mathbf {\Gamma } ={\begin{pmatrix}{\boldsymbol {\gamma }}_{A}&{\boldsymbol {\gamma }}_{B}&{\boldsymbol {\gamma }}_{C}\end{pmatrix}}

={\begin{pmatrix}\gamma _{1A}&\gamma _{1B}&\gamma _{1C}\\\gamma _{2A}&\gamma _{2B}&\gamma _{2C}\\\gamma _{3A}&\gamma _{3B}&\gamma _{3C}\end{pmatrix}}

.

Die Matrix-Vektor-Multiplikation

\mathbf {X} \rightarrow \mathbf {Y} =\mathbf {\Gamma } ^{T}\mathbf {X}

ergibt die Gleichungen

Y_{A}=\gamma _{1A}X_{1}+\gamma _{2A}X_{2}+\gamma _{3A}X_{3}

Y_{B}=\gamma _{1B}X_{1}+\gamma _{2B}X_{2}+\gamma _{3B}X_{3}

Y_{C}=\gamma _{1C}X_{1}+\gamma _{2C}X_{2}+\gamma _{3C}X_{3}

.

Die Eigenvektoren bilden also die (maximal) p-dimensionale Rotationsmatrix, die sog. Ladungen, welche in der Matrixmultiplikation $\mathbf {Y} =\mathbf {\Gamma } ^{T}\mathbf {X}$ die

Punktwolke $X$ so dreht, dass die Koordinaten der Punkte im neuen System gleich der Matrix $Y$ sind. Die Varianz de Hauptkomponente A, $Y_{A}$ ist

\operatorname {Var} (Y_{A})=\lambda _{A}.

Also hat die Hauptkomponente $Y_{A}$ den größten Anteil an der Gesamtvarianz der Daten, $Y_{B}$ den zweitgrößten Anteil usw. Die Elemente $\gamma _{jk}$ , $j=1,2,3$ ; $k=A,B,C$ , könnte man als Beitrag der Variablen $X_{j}$ am Faktor $k$ bezeichnen. Die Ladungsmatrix $\mathbf {\Gamma }$ gibt an, „wie hoch eine Variable $X$ auf einen Faktor $Y$ lädt“. Der Ladungswert einer Variablen für eine Hauptkomponente misst, wie viele Einheitsschritte man entlang dieser Variablenachse 'laufen' müsste, um einen Einheitsschritt entlang der Hauptkomponente zu erhalten. Die Variablen-Ladungen drücken also aus, welche Unterschiede bei den alten Variablen diese Hauptkomponente besonders gut misst.

Schätzung der Modellparameter

Liegen konkret erhobene Daten mit $p$ Merkmalen vor (d. h., jeder Datenpunkt ist ein $p$ -dimensionaler Vektor), wird aus den Merkmalswerten die Stichproben-Korrelationsmatrix errechnet. Aus dieser Matrix bestimmt man dann die Eigenwerte und Eigenvektoren für die Hauptkomponentenanalyse. Da die Kovarianzmatrix eine symmetrische $p\times p$ -Matrix ist, sind für ihre Berechnung insgesamt $(p^{2}+p)/2$ Parameter zu schätzen. Dies ist nur dann sinnvoll, wenn die Anzahl $N$ der Datenpunkte im Datensatz deutlich größer ist, d. h., wenn $N\gg (p^{2}+p)/2$ . Anderenfalls ist die Bestimmung der Kovarianzmatrix stark fehlerbehaftet und diese Methode sollte nicht angewandt werden.

Beispiele

Betrachtet werden Artillerieschiffe des Zweiten Weltkriegs (siehe Kriegsschiffsdaten). Sie sind eingeteilt in die Klassen Schlachtschiffe, schwere Kreuzer, leichte Kreuzer und Zerstörer. Es liegen Daten für ca. 200 Schiffe vor. Es wurden die Merkmale Länge, Breite, Wasserverdrängung, Tiefgang, Leistung der Maschinen, Geschwindigkeit (längerfristig mögliche Höchstgeschwindigkeit), Aktionsradius und Mannschaftsstärke erfasst. Die Merkmale Länge, Breite, Wasserverdrängung und Tiefgang können so aufgefasst werden, dass sie alle einen ähnlichen Sachverhalt messen, den man als den Faktor „Größe“ beschreiben könnte. Die Frage ist, ob noch andere Faktoren die Daten bestimmen. Es gibt tatsächlich noch einen zweiten deutlichen Faktor, der vor allem durch die Leistung der Maschinen und die Höchstgeschwindigkeit bestimmt wird. Man könnte ihn zu einem Faktor „Geschwindigkeit“ zusammenfassen.

Andere Beispiele für Anwendungen der Hauptkomponentenanalyse sind:

Wendet man die Hauptkomponentenanalyse auf das Kaufverhalten von Konsumenten an, gibt es möglicherweise latente Faktoren wie sozialer Status, Alter oder Familienstand, die bestimmte Käufe motivieren. Hier könnte man durch gezielte Werbung die Kauflust entsprechend kanalisieren.
Hat man ein statistisches Modell mit sehr vielen Merkmalen, könnte mit Hilfe der Hauptkomponentenanalyse gegebenenfalls die Zahl der Variablen im Modell reduziert werden, was meistens die Modellqualität steigert.
Anwendung findet die Hauptkomponentenanalyse auch in der Bildverarbeitung – insbesondere bei der Fernerkundung. Dabei kann man Satellitenbilder analysieren und Rückschlüsse daraus ziehen.
Ein weiteres Gebiet ist die Künstliche Intelligenz, zusammen mit den Neuronalen Netzen. Dort dient die PCA zur Merkmalstrennung im Rahmen der automatischen Klassifizierung bzw. in der Mustererkennung.

Beispiel mit drei Variablen

Das oben genannte Anwendungsbeispiel wird jetzt in Zahlen verdeutlicht:

Wir betrachten die Merkmale Länge, Breite und Geschwindigkeit. Die Streudiagramme geben einen Eindruck über deren paarweise Verteilung wieder.

Mit diesen drei Merkmalen wurde mithilfe eines Statistikprogramms eine Hauptkomponentenanalyse durchgeführt. Die Ladungsmatrix $\Gamma$ ist

Komponente	A	B	C
Länge	0,862	0.977	–0.679
Breite	0.481	0,083	0.730
Geschwindigkeit	–0.159	0.198	0.082

Die Komponente $y_{A}$ setzt sich also zusammen aus

Y_{A}=0{,}862\cdot {\text{Länge}}+0{,}481\cdot {\text{Breite}}-0{,}159\cdot {\text{Geschwindigkeit}}

.

Vor allem die Beiträge von Länge und Breite zur Komponente A sind groß. Bei Komponente B ist vor allem der Beitrag der Länge groß, während die Komponente C am stärksten von der Variable Breite getragen wird.

Die Gesamtvarianz der Daten verteilt sich wie folgt auf die Hauptkomponenten:

Komponente	Eigenwert $\lambda _{j}$	Prozent der Gesamtvarianz	Prozentualer Anteil der Kumulierten Varianz an Gesamtvarianz
A	2,16	71,97	71,97
B	0,77	25,67	97,64
C	0,07	2,36	100,00

Es werden also durch die ersten zwei Hauptkomponenten bereits 97,64 % der gesamten Varianz der Daten abgedeckt. Die Komponente C trägt nichts Nennenswertes zum Informationsgehalt bei.

Beispiel mit acht Variablen

Es wurden nun acht Merkmale der Artillerieschiffe einer Hauptkomponentenanalyse unterzogen. Die Tabelle der Ladungsmatrix, hier „Komponentenmatrix“ genannt, zeigt, dass vor allem die Variablen Länge, Breite, Tiefgang, Wasserverdrängung und Mannschaftsstärke hoch auf die erste Hauptkomponente laden. Diese Komponente könnte man als „Größe“ bezeichnen. Die zweite Komponente wird zum größten Teil durch PS und Knoten erklärt. Sie könnte „Geschwindigkeit“ genannt werden. Eine dritte Komponente lädt noch hoch auf Aktionsradius.

Die beiden ersten Komponenten decken bereits ca. 84 % der Information der Schiffsdaten ab, die dritte Komponente erfasst noch einmal ca. 10 %. Der zusätzliche Beitrag der restlichen Komponenten ist unerheblich.

Komponentenmatrix
	Komponente
	1	2	3	4	5	6	7	8
Wasserverdrängung BRT	0,948	−0,094	−0,129	0,228	0,040	0,036	0,136	0,055
Länge m	0,906	0,302	−0,064	−0,209	0,128	−0,144	−0,007	−0,050
Breite m	0,977	−0,128	−0,031	0,032	0,103	−0,017	−0,014	0,129
Tiefgang m	0,934	−0,276	−0,061	0,014	0,074	0,129	0,154	−0,038
1000 PS	0,552	0,779	−0,196	−0,133	−0,099	0,143	−0,038	0,018
Knoten sm/h	−0,520	0,798	−0,157	0,222	0,109	−0,038	0,071	0,004
Aktionsradius 100 sm	0,398	0,311	0,862	0,038	0,008	0,022	−0,002	−0,005
Mannschaftsstärke	0,955	0,063	−0,052	0,108	−0,226	−0,121	0,067	0,002
Extraktionsmethode: Hauptkomponentenanalyse
	Acht Komponenten extrahiert

Varianz der Komponenten
Komponente	Eigenwerte
Komponente	Total	% der Varianz	Kumulativ
1	5,19	64,88	64,88
2	1,54	19,22	84,10
3	0,83	10,43	94,53
4	0,18	2,22	96,74
5	0,11	1,34	98,08
6	0,08	0,95	99,03
7	0,05	0,67	99,70
8	0,02	0,30	100,00

Anwendung in der Clusteranalyse und Dimensionsreduktion

Zweidimensionales Beispiel für eine PCA. Die beiden Cluster haben eine geringe interne Streuung. Die erste Hauptkomponente wird

x_{1}

sein, die zweite

x_{2}

. Der Hauptanteil der Gesamtstreuung liegt zwischen den Clustern (Signalvarianz bzw. englisch signal variance).

Zweidimensionales Beispiel für eine PCA. Die beiden Cluster haben eine sehr große interne Streuung. Die erste Hauptkomponente wird

x_{2}

sein, die zweite

x_{1}

. Der Hauptanteil der Gesamtstreuung liegt innerhalb der Cluster (Rauschvarianz bzw. englisch noise variance). Man beachte, dass in dieser Abbildung die

x_{1}

und

x_{2}

Achsen unterschiedlich skaliert sind. Deshalb ist die Streubreite in der

x_{1}

Dimension ~25, in der

x_{2}

Dimension jedoch ~110.

Die Hauptkomponentenanalyse (PCA) wird auch häufig in der Clusteranalyse und zur Reduzierung der Dimension des Parameterraums verwendet, insbesondere dann, wenn man noch keinerlei Vorstellung (Modell) von der Struktur der Daten hat. Dabei macht man sich zunutze, dass die PCA das (orthogonale) Koordinatensystem so dreht, dass die Kovarianzmatrix diagonalisiert wird. Außerdem sortiert die PCA die Reihenfolge der Koordinatenachsen (die Hauptkomponenten) so um, dass die erste Hauptkomponente den größten Anteil der Gesamtstreuung (Totale Varianz) im Datensatz enthält, die zweite Hauptkomponente den zweitgrößten Anteil usw. Wie an den Beispielen im vorigen Abschnitt illustriert wurde, kann man meist die hinteren Hauptkomponenten (also diejenigen, welche nur einen geringen Anteil an der Gesamtstreuung enthalten) ersatzlos streichen, ohne dass dadurch ein nennenswerter Informationsverlust entsteht.

Die Grundannahme für die Verwendung der PCA zur Clusteranalyse und Dimensionsreduktion lautet: Die Richtungen mit der größten Streuung (Varianz) beinhalten die meiste Information.

In diesem Zusammenhang ist sehr wichtig, dass diese Grundannahme lediglich eine Arbeitshypothese ist, welche nicht immer zutreffen muss. Um diesen Sachverhalt zu veranschaulichen, folgen zwei Beispiele:

Signal Variance (deutsch Signalvarianz): Die Grafik rechts mit dem Titel PCA Signal Variance zeigt ein Beispiel, bei dem die Annahme zutrifft. Der Datensatz besteht aus zwei Clustern (rot und grün), die klar voneinander getrennt sind. Die Streuung der Datenpunkte innerhalb jedes Clusters ist sehr klein verglichen mit dem „Abstand“ der beiden Cluster. Entsprechend wird die erste Hauptkomponente $x_{1}$ sein. Außerdem ist klar ersichtlich, dass die erste Hauptkomponente $x_{1}$ völlig ausreichend ist, um die beiden Cluster voneinander zu trennen, während die zweite Hauptkomponente $x_{2}$ dazu keinerlei nützliche Information enthält. Die Anzahl der Dimensionen kann also von 2 auf 1 reduziert werden (durch Vernachlässigung von $x_{2}$ ), ohne dass man dabei wesentliche Informationen über die beiden Cluster verlieren würde. Die Gesamtvarianz des Datensatzes wird also vom Signal dominiert (zwei getrennte Cluster).

Noise Variance (deutsch Rauschvarianz): Die Grafik rechts mit dem Titel PCA Noise Variance zeigt ein Beispiel, bei dem die Annahme nicht zutrifft und die PCA nicht zur Dimensionsreduktion verwendet werden kann. Die Streuung innerhalb der beiden Cluster ist nun deutlich größer und trägt den Hauptanteil an der Gesamtstreuung. Unter der Annahme, dass diese Streuung innerhalb der Cluster durch Rauschen verursacht wird, nennt man diesen Fall noise variance. Die erste Hauptkomponente wird $x_{2}$ sein, welche keinerlei Information über die Trennbarkeit beider Cluster beinhaltet.

Diese beiden Beispiele zeigen, wie man die PCA zur Reduzierung der Dimension und zur Clusteranalyse einsetzen kann bzw., dass dies nicht immer möglich ist. Ob die Grundannahme, dass die Richtungen der größten Streuung auch wirklich die interessantesten sind, zutrifft oder nicht, hängt vom jeweils gegebenen Datensatz ab und lässt sich oft nicht überprüfen – gerade dann, wenn die Anzahl der Dimensionen sehr hoch ist und sich die Daten demzufolge nicht mehr vollständig visualisieren lassen.

Zusammenhang mit der multidimensionalen Skalierung

Sowohl die multidimensionale Skalierung als auch die Hauptkomponentenanalyse verdichten die Daten. Werden in der (metrischen) multidimensionalen Skalierung euklidische Distanzen verwendet und ist die Dimension der Konfiguration gleich der Zahl der Hauptkomponenten, so liefern beide Verfahren die gleiche Lösung. Dies liegt daran, dass die Diagonalisierung der Kovarianzmatrix (bzw. Korrelationsmatrix, falls mit standardisierten Daten gearbeitet wird) bei der Hauptkomponentenanalyse einer Rotation des Koordinatensystems entspricht. Dadurch bleiben die Distanzen zwischen den Beobachtungen, die den Ausgangspunkt in der multidimensionalen Skalierung bilden, gleich.

In der multidimensionalen Skalierung können jedoch auch andere Distanzen verwendet werden; insofern kann die Hauptkomponentenanalyse als Spezialfall der multidimensionalen Skalierung betrachtet werden.

Siehe auch

Literatur

George H. Dunteman: Principal Components Analysis (= Sage University Papers. Series: Quantitative Applications in the Social Sciences. 69). Sage Publications, Newbury Park CA u. a. 1989, ISBN 0-8039-3014-2.
Ludwig Fahrmeir, Alfred Hamerle, Gerhard Tutz (Hrsg.): Multivariate statistische Verfahren. 2., überarbeitete Auflage. de Gruyter, Berlin u. a. 1996, ISBN 3-11-013806-9.
Andreas Handl, Torben Kuhlenkasper: Multivariate Analysemethoden. Theorie und Praxis mit R. 3., wesentlich überarbeitete Auflage. Springer Spektrum, Berlin 2017, ISBN 978-3-662-54753-3.
Joachim Hartung, Bärbel Elpelt: Multivariate Statistik. Lehr- und Handbuch der angewandten Statistik. 6., unwesentlich veränderte Auflage. Oldenbourg, München u. a. 1999, ISBN 3-486-25287-9.
Trevor Hastie, Robert Tibshirani, Jerome Friedman: The Elements of Statistical Learning. Data Mining, Inference, and Prediction. Springer, New York NY u. a. 20010-387-95284-5.
Waltraud Kessler: Multivariate Datenanalyse für die Pharma-, Bio- und Prozessanalytik. Ein Lehrbuch. Wiley-VCH, Weinheim 2007, ISBN 978-3-527-31262-7 (Eine Einführung in die PCA mit Beispiel-CD).
Wojtek J. Krzanowski: Principles of Multivariate Analysis. A User’s Perspective (= Oxford Statistical Science Series. 22 (recte: 23)). Revised edition. Oxford University Press, Oxford u. a. 2000, ISBN 0-19-850708-9.
Kantilal V. Mardia, John T. Kent, John M. Bibby: Multivariate Analysis. Academic Press, Amsterdam u. a. 1979, ISBN 0-12-471250-9.
Thomas D. Wickens: The Geometry of Multivariate Statistics. Erlbaum, Hillsdale 1995, ISBN 978-0-8058-1656-3.

Weblinks

Lindsay I. Smith: A tutorial on Principal Components Analysis. (PDF; 117 kB) (Internet Archive, archiviert am 9. März 2021)

Einzelnachweise

↑ Karl Pearson: On lines and planes of closest fit to systems of points in space. In: The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science. Series 6, Band 2, Nummer 11, 1901, S. 559–572, doi:10.1080/14786440109462720.
↑ Hauptkomponentenanalyse und explorative Faktorenanalyse. In: SpringerLink. VS Verlag für Sozialwissenschaften, 2010, abgerufen am 12. September 2024.
↑ Hervé Abdi, Lynne J. Williams: Principal component analysis. In: WIREs (Wiley Interdisciplinary Reviews) Computational Statistics. Band 2, Nr. 4. Wiley, 2010, S. 433–459, doi:10.1002/wics.101 (englisch).
↑ Thomas D. Wickens: The Geometry of Multivariate Statistics. 1. Auflage. Erlbaum, Hillsdale 1995, ISBN 978-0-8058-1656-3, chapter 9 "Principal-component analysis", S. 127–143 (englisch).
↑ Pierre Legendre, Louis Legendre: Numerical Ecology. (= Developments in Environmental Modelling. Band 24). 3. Auflage. Elsevier, Amsterdam 2012, ISBN 978-0-444-53868-0, S. 445.

[1] Karl Pearson: On lines and planes of closest fit to systems of points in space. In: The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science. Series 6, Band 2, Nummer 11, 1901, S. 559–572, doi:10.1080/14786440109462720.

[2] Hauptkomponentenanalyse und explorative Faktorenanalyse. In: SpringerLink. VS Verlag für Sozialwissenschaften, 2010, abgerufen am 12. September 2024.

[3] Hervé Abdi, Lynne J. Williams: Principal component analysis. In: WIREs (Wiley Interdisciplinary Reviews) Computational Statistics. Band 2, Nr. 4. Wiley, 2010, S. 433–459, doi:10.1002/wics.101 (englisch).

[4] Thomas D. Wickens: The Geometry of Multivariate Statistics. 1. Auflage. Erlbaum, Hillsdale 1995, ISBN 978-0-8058-1656-3, chapter 9 "Principal-component analysis", S. 127–143 (englisch).

[5] Pierre Legendre, Louis Legendre: Numerical Ecology. (= Developments in Environmental Modelling. Band 24). 3. Auflage. Elsevier, Amsterdam 2012, ISBN 978-0-444-53868-0, S. 445.

[1]

[2]

[3]

[4]

[5]