hajautusanalyysejä
Hajautusanalyysejä ovat tilastollisia menetelmiä, joiden tavoitteena on löytää havaintoihin ryhmiä (klustereita). Ryhmien sisällä pisteet ovat mahdollisimman yhtenäisiä ja erilliset ryhmät toisistaan, jolloin datan rakenne selkiytyy ilman etukäteen annettuja luokkia.
Päätyyppejä on useita: partitioning-menetelmät kuten k-means ja k-medoids, hierarchical- eli puskuriluksiset menetelmät (agglomerative ja divisive), density-based
Keskeisiä käsitteitä ovat etäisyys- tai samankaltaisuusmitat sekä ominaisuuksien skaalaus. Usein data esiprosessoidaan standardointia tai normalisointia varten
Käytännön työssä pohditaan muun muassa, kuinka monta klusteria tulisi erottaa. Välineiksi käytetään esimerkiksi Elbow- eli käyrän
Sovelluskohteita ovat asiakassegmentointi, genomitiedon analyysi, kuvan ja tekstoprosessoinnin klusterointi sekä virhe- ja poikkeavuuksien havaitseminen. Hajautusanalyysejä tukevat
Rajoitteita ovat se, ettei tuloksilla välttämättä ole todellista "totuutta", sekä herkkyys skaalaukselle, outliereille ja korkean ulottuvuuden