klusterianalyysejä
Klusterianalyysi on tilastollinen ja data-analyysiin liittyvä menetelmä, jolla havaintojoukko jaetaan ryhmiin (klustereihin) siten, että ryhmän sisällä havaintoja yhdistää suurempi samankaltaisuus kuin eri ryhmien välillä. Klusterien tavoitteena on löytää rakenne suuresta datamäärästä ilman ennakko-oletuksia ryhmien lukumäärästä tai muodoista.
Yleisimmät menetelmät ovat k-means, hierarkkinen klusterointi (agglomeratiivinen ja divisive), DBSCAN, Gaussian mixture models ja spektrinen klusterointi.
Prosessi sisältää datan esikäsittelyn ja standardoinnin, etäisyys- tai lähestymistavan määrittämisen sekä klustereiden lukumäärän tai rakenteen arvioinnin.
Sovelluksia ovat markkinointi ja asiakasryhmien erottelu, biologinen ja medicinellinen tutkimus sekä kuvan- ja puheentunnistus sekä sosiaalitieteelliset
Haasteita ovat korkeaulotteinen data, skaalautuvuus suurille datamäärille, tulosten tulkittavuus sekä subjektiivisuus menetelmän ja etäisyysmittareiden valinnassa. Arviointiin