Home

huvudkomponentanalys

Huvudkomponentanalys (HKA), även kallad PCA, är en statistisk metod för att reducera antalet dimensioner i en dataset genom att transformera data till ett nytt koordinatsystem där varje komponent fångar så stor del av variansen som möjligt. Den första komponenten förklarar mest varians, den andra näst, och så vidare. Komponenterna är linjära kombinationer av de ursprungliga variablerna och beräknas som egenvektorer till kovariansmatrisen eller via singularvärdesuppdelning.

Så görs det i korthet: variablerna centreras och standardiseras oftast, sedan beräknas kovarians- eller korrelationsmatrisen och

Antalet komponenter väljs utifrån hur mycket varians som ska behållas, till exempel en kumulativ varians på

Begränsningar: komponenterna är ofta svåra att tolka eftersom de är linjära kombinationer. PCA är känslig för

Relaterade metoder inkluderar oberoende komponentanalys och icke-linjära tekniker som t-SNE eller UMAP, vilka används för andra

egenvärden/eigenvektorer
extraheras.
Komponentpoängen
erhålls
genom
projektion
på
huvudkomponenterna,
och
den
förklarade
variansen
visas
ofta
som
en
kumulativ
varians
baserat
på
egenvärdena.
80–95%,
eller
med
Scree-diagram.
Användningar
inkluderar
datareducering,
mönsterigenkänning
och
visualisering
samt
förberedelse
i
maskininlärning.
skalering
och
outliers
och
kräver
numeriska
variabler;
saknade
värden
hanteras
vanligtvis
genom
imputation.
Metoden
är
oövervakad
och
tar
inte
hänsyn
till
klassinformation.
syften
och
har
olika
antaganden
och
tolkningar
än
HKA/PCA.