hajautusanalyysejä - Infinite Lexicon - Infinite Lexicon

hajautusanalyysejä

Hajautusanalyysejä ovat tilastollisia menetelmiä, joiden tavoitteena on löytää havaintoihin ryhmiä (klustereita). Ryhmien sisällä pisteet ovat mahdollisimman yhtenäisiä ja erilliset ryhmät toisistaan, jolloin datan rakenne selkiytyy ilman etukäteen annettuja luokkia.

Päätyyppejä on useita: partitioning-menetelmät kuten k-means ja k-medoids, hierarchical- eli puskuriluksiset menetelmät (agglomerative ja divisive), density-based

Keskeisiä käsitteitä ovat etäisyys- tai samankaltaisuusmitat sekä ominaisuuksien skaalaus. Usein data esiprosessoidaan standardointia tai normalisointia varten

Käytännön työssä pohditaan muun muassa, kuinka monta klusteria tulisi erottaa. Välineiksi käytetään esimerkiksi Elbow- eli käyrän

Sovelluskohteita ovat asiakassegmentointi, genomitiedon analyysi, kuvan ja tekstoprosessoinnin klusterointi sekä virhe- ja poikkeavuuksien havaitseminen. Hajautusanalyysejä tukevat

Rajoitteita ovat se, ettei tuloksilla välttämättä ole todellista "totuutta", sekä herkkyys skaalaukselle, outliereille ja korkean ulottuvuuden

-lähestymistavat,

pienennetään.

tulkittavuuteen

luotettavuuteen.

taittumispistettä,

silhouette-arvoja

tutkimusvaiheen

kokonaisrakenteen

ymmärtämistä.

merkittävästi

tulkittavuuteen.