etäisyysmenetelmien
Etäisyysmenetelmät ovat tilastollisia ja tiedonlouhinnan työkaluja, joiden ydin on kahden havaintopisteen välisen etäisyyden tai eron mittaaminen ominaisuuksien perusteella. Niitä käytetään muun muassa klusteroinnissa, luokittelussa sekä monidimensionaalisessa skaalaus- ja visualisointimenetelmissä.
Etäisyyden määritelmä voi vaihdella: yleisintä on, että etäisyys D on ei-negatiivinen, D(x,x)=0 ja D(x,y)=D(y,x). Osa etäisyyksistä
Yleisimmät etäisyysmittaukset ovat muun muassa:
- Euclidinen etäisyys, joka mittaa suoran etäisyyden kokonaisominaisuuksista: sqrt(sum (xi - yi)^2).
- Manhattan- (L1) etäisyys, summa absoluuttisista erosta: sum |xi - yi|.
- Minkowskinen etäisyys, jossa p-parametri määrittää mittatavan (p=2 vastaa Euclidista).
- Chebyshev-etiäisyys, suurin komponenttien erojen absoluuttinen arvo: max |xi - yi|.
- Mahalanobis-etäisyys, joka ottaa huomioon ominaisuuksien korrelaatiot käyttäen covarianssimatriisia.
- Kosininen etäisyys perustuu vektorien suuruuksiin piirteiden suunnan mittaamiseen ja on käytetty, kun piirteet ovat keskenään epästandardoituja.
- Jaccard- ja Hamming-etäisyydet soveltuvat erityisesti binäärisille tai diskreetille ominaisuuksille.
Sovellus ja valinta riippuvat datan mitta-asteikosta, skaalauksesta ja tehtävästä: esimerkiksi k-means käyttää usein Euclidista etäisyyttä, kun