klusteroitumista
Klusteroitumista on epävalvottu tilastollinen ja koneoppimisen menetelmä, jolla havaintoja jaetaan klustereihin niiden ominaisuuksien samankaltaisuuden perusteella. Tavoitteena on, että saman klusterin jäsenet ovat keskenään mahdollisimman samanlaisia ja erilliset klusterit eroavat toisistaan. Klusterointi ei edellytä etukäteen määriteltyjä luokkia, mikä tekee siitä hyödyllisen eksploratiivisessa analyysissä.
Suosituimpia lähestymistapoja ovat k-means, hierarkkinen klusterointi (agglomerative ja divisive), sekä tiheysperusteiset menetelmät kuten DBSCAN ja HDBSCAN.
Klusteroitumisen vahvuus on kyky löytää ryhmiä ilman ennakkotieto, mikä tukee tiedon löytämistä suurista datamääristä. Haasteet liittyvät
Ennen analyysiä data tulisi normalisoida, mahdollisesti pienentää ulottuvuutta ja käsitellä puuttuvat arvot. Tulosten arvioinnissa käytetään sisäisiä
Sovelluksia on monia: asiakkaiden segmentointi, kuvan- ja äänidatan ryhmittely, genomitiedon analyysi sekä verkostoanalyysi. Klusteroitumista hyödynnetään myös
Klusteroitumista on keskeinen työkalu datan eksploraatiossa; sen valinnat ja tulkinta vaativat kontekstin ymmärrystä ja systemaattista testamista.