klusterointimoodelien
Klusterointimoodelit ovat epävalvotun oppimisen algoritmeja, jotka ryhmittävät havainnot klustereihin siten, että saman klusterin jäsenet ovat keskenään mahdollisimman samankaltaisia ja erottuvat muista klustereista. Ne eivät edellytä etukäteen määriteltyä luokitusta, vaan etsivät datasta piilevää rakennetta, kuten segmentointeja, poikkeavuuksien ryhmittelyä tai tiheydelle perustuvia rakenteita.
Keskeisiä klusterointityyppejä ovat partitional-menetelmät, kuten k-means ja k-medoids, hierarchical-menetelmät (agglomeratiivinen ja divisive), density-based menetelmät kuten DBSCAN
Klusteroinnin onnistuminen riippuu monista tekijöistä, kuten datan ominaisuuksista, esiprosessoinnista ja valitusta mitta-asteikosta. Monilla menetelmillä lähtötilanteet ja
Arviointi perustuu usein sisäisiin valideerausmittareihin, kuten Silhouette-arvoon, Davies-Bouldin -indeksiin tai Calinski-Harabasz -lukuun, jotka mittaavat klustereiden erottuvuutta