pääskomponenttianalyysiä
Pääskomponenttianalyysi (PCA) on tilastollinen menetelmä, jolla korkean ulottuvuuden data voidaan tiivistää pienempään tilaan säilyttäen mahdollisimman paljon alkuperäisestä varianssista. Menetelmä luo uusia muuttujia, pääkomponentteja, jotka ovat alkuperäisten muuttujien lineaarisia yhdistelmiä ja jotka kuvaavat datan suurinta varianssia.
Toimintaperiaate: Data ensin keskitetään (ja usein standardoidaan). Tämän jälkeen muodostetaan kovarianssi- tai korrelaatiomatriisi S. Ominaisarvodekompositio tai
Käyttöalueet: PCA on yleisesti käytetty datavisualisointiin korkeissa ulottuvuuksissa, ominaisuuspoimintaan koneoppimisen syötteenä, melun vähentämiseen sekä tiedon pienentämiseen
Komponenttien määrän valinta: Kumulatiivisen varianssin kattavuutta seurataan valittaessa k komponenttia. Yleisiä kriteerejä ovat esimerkiksi 80–95 %:n
Rajoitteet ja variantit: PCA on lineaarinen menetelmä, eikä se huomioi ei-lineaarisia suhteita ja on herkkä poikkeaville