Klusterointiprosessin
Klusterointiprosessi, suomeksi klusterointi tai ryvästys, on datatieteessä ja koneoppimisessa käytetty menetelmä, jonka tavoitteena on jakaa datajoukko pienempiin osajoukkoihin eli klustereihin. Saman klusterin havaintojen oletetaan olevan samankaltaisia keskenään, kun taas eri klusterien havaintojen tulisi olla mahdollisimman erilaisia. Klusterointi kuuluu ohjaamattoman oppimisen piiriin, koska se ei vaadi ennalta määriteltyjä luokkia tai tunnisteita datalle.
Klusterointiprosessin ytimessä on etäisyys- tai samankaltaisuusmittarin valinta, joka määrittää, kuinka havaintojen samankaltaisuutta arvioidaan. Yleisiä mittareita ovat
Klusterointia sovelletaan monilla aloilla. Esimerkkejä ovat asiakassegmentointi markkinoinnissa, kuvien tai dokumenttien ryhmittely, poikkeamien havaitseminen ja biologisen