klusterointeja
Klusterointeja eli klusterointia tarkoitetaan datan ryhmittelyä siten, että saman ryhmän jäsenet ovat keskenään erottuvasti samankaltaisia ja erilaisten ryhmien välillä ero on suurempi. Prosessi on tyypillisesti osa eksploratiivista data-analyysia ja on ohjaamaton, eli sen ei ole tarkoitus ennustaa tiettyä labelia. Klusteroinnissa voidaan erottaa hard- ja soft-klusterointi sekä mallipohjaiset ja tiheysperusteiset lähestymistavat.
Yleisimmät menetelmät ovat k-means, hierarchical (agglomerative) klusterointi, DBSCAN sekä tilastolliset mallipohjaiset menetelmät kuten Gaussian mixture models.
Ennen klusterointia datan ominaisuudet on usein normalisoitava tai skaalattava, jäännöksiä ja poikkeamia hallittava sekä mahdollisesti ulottuvuuksia
Klusterointeja käytetään esimerkiksi markkinointisegmentointiin, kuvan ja tekstin ryhmittelyyn, genomitietojen analysointiin sekä verkko- ja sosiaalisten verkostojen analyysiin.