klusterianalyysit
Klusterianalyysi on tilastollinen ja data-analyysin menetelmä, jolla havaintoja ryhmitellään klustereihin siten, että klustereiden sisällä havainnot ovat mahdollisimman samanlaisia ja klusterien välillä erottuvia. Menetelmä kuuluu ei-valvottuun oppimiseen eikä se perustu etukäteen määriteltyihin luokkiin, vaan rakenteita etsitään datasta itsestään.
Yleisimmät lähestymistavat ovat partitiiviset menetelmät kuten k-means ja k-medoids, hierarkkinen klusterointi sekä tiheysperusteiset menetelmät kuten DBSCAN
Prosessi alkaa datan esikäsittelystä (standardointi, poikkeavien havaintojen huomiointi). Tärkeä askel on valita etäisyysmitta ja määrää klustereita
Klusterianalyysiä sovelletaan muun muassa markkinoinnissa asiakassegmentointiin, biotieteissä geneettisten ja fenotyyppisten ryhmien löytämiseen, kuvatutkimuksessa sekä sosiaali- ja
Yhteenvetona klusterianalyysi auttaa löytämään rakenteita suurista datamassoista ilman valmiita luokkia, mutta tulkinta ja tulosten käyttö voivat