Home

Hauptkomponentenanalyse

Die Hauptkomponentenanalyse (PCA) ist eine statistische Methode zur Reduktion der Dimensionalität von Datensätzen. Sie transformiert die ursprünglichen Variablen in eine neue, lineare Basis aus Hauptkomponenten, die die meiste Varianz der Daten erklären. Die Hauptkomponenten sind orthogonal zueinander und folgen der Reihenfolge ihrer erklärte Varianz.

Mathematisch basiert PCA auf der Kovarianzmatrix der Daten. Nach Zentrierung der Daten (und ggf. Standardisierung) wird

Die Wahl der Anzahl k der Hauptkomponenten erfolgt oft anhand der erklärten Varianz, beispielsweise über einen

Anwendungen finden sich in der Bild- und Spracherkennung, der Datenkompression, der explorativen Datenanalyse, der Visualisierung hochdimensionaler

Historisch wurde die Methode 1901 von Karl Pearson eingeführt; der Begriff Hauptkomponenten bezieht sich auf die

diese
Matrix
gebildet.
Aus
ihr
werden
die
Eigenwerte
und
Eigenvektoren
bestimmt;
die
Eigenvektoren
bilden
die
neuen
Achsen
(Hauptkomponenten),
sortiert
nach
abnehmender
Varianz.
Die
Projektion
der
Daten
auf
die
ersten
k
Hauptkomponenten
ergibt
eine
reduzierte
Repräsentation,
die
die
wesentlichen
Strukturen
der
Daten
möglichst
gut
erhält.
Scree-Plot
oder
das
Kaiser-Kriterium.
Die
Ergebnisse
der
PCA
lassen
sich
auch
über
die
Singulärwertzerlegung
(SVD)
der
Datenmatrix
gewinnen;
SVD
ist
eine
äquivalente
Sichtweise
und
oft
numerisch
stabiler.
Erweiterte
Varianten
umfassen
Kernel
PCA
für
nichtlineare
Strukturen
und
robuste
PCA-Ansätze
zur
besseren
Handhabung
von
Ausreißern.
Daten
sowie
in
Bereichen
wie
Genomik
und
Umweltwissenschaften.
Vorteile
der
PCA
sind
die
Reduktion
der
Dimensionalität
bei
Erhalt
der
wichtigsten
Varianzanteile
und
eine
oft
einfachere
Interpretation
der
Hauptkomponenten.
Nachteile
sind
die
lineare
Natur
der
Transformation,
Anfälligkeit
für
Skalierung
und
Ausreißer
sowie
begrenzte
Interpretierbarkeit
der
Komponenten.
wichtigsten,
maximal
erklärten
Varianzanteile
der
Daten.