klusterointia
Klusterointi on epävalvottu koneoppimisen osa-alue, jonka tavoitteena on jakaa aineisto klustereihin siten, että saman klusterin havainnot ovat keskenään mahdollisimman samankaltaisia ja eri klustereiden välillä on eroa. Klusterit ovat usein tulkittavissa yhteisten ominaisuuksien perusteella, mutta niiden lukumäärä sekä tarkka muoto voivat olla datasta riippuvaisia.
Yleisiä klusterointimuotoja ovat k-means, hierarkinen klusterointi, DBSCAN ja gaussein sekoitusmallit. K-means jakaa aineiston kiinteään määrään klustereita
Prosessissa korostuvat esikäsittely, ominaisuuksien valinta sekä etäisyysmittari. Ominaisuudet voivat vaatia standardointia tai normalisointia, ja oikea etäisyysmittari
---