klusterianalyysissa
Klusterianalyysi, joka tunnetaan myös nimellä klusteriminen tai klusterointi, on tilastollinen menetelmä, joka luokittelee havainnot ryhmiin (klustereihin) perustuen niiden välisiin samankaltaisuuksiin. Menetelmä ei perustu etukäteen määriteltyihin luokkiin, vaan havainnot ryhmitetään automaattisesti niiden ominaisuuksien perusteella. Klusterianalyysiä käytetään laajalti tietojenkäsittelyssä, biologiassa, taloustieteissä, sosiaalitutkimuksissa ja muissa aloilla, joissa dataa halutaan ymmärtää ryhmittäin.
Klusterianalyysin perusidea on löytää ryhmiä, joissa saman klusterin sisällä olevat havainnot ovat toistensa kanssa samanlaisia tai
Klusterianalyysin suosituimpia menetelmiä ovat hierarkkinen klusterointi, k-means-menetelmä ja DBSCAN. Hierarkkinen klusterointi rakentaa klustereita asteittain, joko yhdistämällä
Klusterianalyysin tulosten tulkinta edellyttää huolellista arviointia, sillä menetelmä voi olla herkkä datan esikäsittelylle ja parametrien valinnalle.