huvudkomponentanalys
Huvudkomponentanalys (HKA), även kallad PCA, är en statistisk metod för att reducera antalet dimensioner i en dataset genom att transformera data till ett nytt koordinatsystem där varje komponent fångar så stor del av variansen som möjligt. Den första komponenten förklarar mest varians, den andra näst, och så vidare. Komponenterna är linjära kombinationer av de ursprungliga variablerna och beräknas som egenvektorer till kovariansmatrisen eller via singularvärdesuppdelning.
Så görs det i korthet: variablerna centreras och standardiseras oftast, sedan beräknas kovarians- eller korrelationsmatrisen och
Antalet komponenter väljs utifrån hur mycket varians som ska behållas, till exempel en kumulativ varians på
Begränsningar: komponenterna är ofta svåra att tolka eftersom de är linjära kombinationer. PCA är känslig för
Relaterade metoder inkluderar oberoende komponentanalys och icke-linjära tekniker som t-SNE eller UMAP, vilka används för andra