pääkomponenttianalyysillä
Pääkomponenttianalyysi (PCA) on tilastollinen menetelmä, jonka avulla suuria muuttujamääristä dataa voidaan kuvata pienemmällä, lineaarisesti muodostettavien pääkomponenttien joukkona. Tavoitteena on säilyttää mahdollisimman suuri osa datan varianssista näissä uusissa, ortogonaalisissa muuttujissa.
Työprosessi koostuu tyypillisesti viidestä vaiheesta: 1) data keskitetään (ja tarvittaessa skaalataan standardoitujen muuttujien mukaan). 2) lasketaan
PCAa käytetään datan purkamisessa, datan visualisoinnissa (esim. 2D- tai 3D-esitykset), melun vähentämisessä sekä esikäsittelyssä koneoppimisessa. Se
Rajoitukset ovat huomioitava: PCA on lineaarinen menetelmä eikä tee ei-lineaarisista suhteista eroa; skaalauksella on merkittävä vaikutus
Historia: PCA kehitettiin alun perin Karl Pearsonin toimesta vuonna 1901, ja matemaattinen kehitys sekä laajempi käyttöönotto