etäisyysmenetelmien - Infinite Lexicon - Infinite Lexicon

etäisyysmenetelmien

Etäisyysmenetelmät ovat tilastollisia ja tiedonlouhinnan työkaluja, joiden ydin on kahden havaintopisteen välisen etäisyyden tai eron mittaaminen ominaisuuksien perusteella. Niitä käytetään muun muassa klusteroinnissa, luokittelussa sekä monidimensionaalisessa skaalaus- ja visualisointimenetelmissä.

Etäisyyden määritelmä voi vaihdella: yleisintä on, että etäisyys D on ei-negatiivinen, D(x,x)=0 ja D(x,y)=D(y,x). Osa etäisyyksistä

Yleisimmät etäisyysmittaukset ovat muun muassa:

- Euclidinen etäisyys, joka mittaa suoran etäisyyden kokonaisominaisuuksista: sqrt(sum (xi - yi)^2).

- Manhattan- (L1) etäisyys, summa absoluuttisista erosta: sum |xi - yi|.

- Minkowskinen etäisyys, jossa p-parametri määrittää mittatavan (p=2 vastaa Euclidista).

- Chebyshev-etiäisyys, suurin komponenttien erojen absoluuttinen arvo: max |xi - yi|.

- Mahalanobis-etäisyys, joka ottaa huomioon ominaisuuksien korrelaatiot käyttäen covarianssimatriisia.

- Kosininen etäisyys perustuu vektorien suuruuksiin piirteiden suunnan mittaamiseen ja on käytetty, kun piirteet ovat keskenään epästandardoituja.

- Jaccard- ja Hamming-etäisyydet soveltuvat erityisesti binäärisille tai diskreetille ominaisuuksille.

Sovellus ja valinta riippuvat datan mitta-asteikosta, skaalauksesta ja tehtävästä: esimerkiksi k-means käyttää usein Euclidista etäisyyttä, kun

etäisyysfunktiosta

data-asteikoihin

ominaisuuksiin.

ominaisuuksille

Hamming-etäisyyksiä.

tasapuolisesti.

ulottuvuuksissa