etäisyysmenetelmiin
Etäisyysmenetelmät ovat tilastollisia ja data-analyysin välineitä, joiden avulla määritellään kahden havaintopisteen välinen eron tai samankaltaisuuden mitta. Niiden tuottama etäisyys- eli dissimilarity-matriisi on keskeinen työkalu klusteroinnissa, luokittelussa sekä ordinaation ja visuaalisen datan esittämisen yhteydessä.
Yleisimmät etäisyydet ovat Euclidinen etäisyys, Manhattan- (L1) ja Minkowski-etäisyydet sekä Chebyshev-etäisyys (maksimietäisyys). Mahalanobisin etäisyys ottaa huomioon
Datan esikäsittely on tärkeää, sillä etäisyydet voivat olla herkkiä mittakaavalle. Usein tarvitaan standardointia tai normalisointia, jotta
Sovellukset: klusterointi (k-means, hierarkkinen klusterointi), ulottuvuuksien pienentäminen ja visuaalinen esittäminen (MDS sekä muut ordinaatio-menetelmät), sekä luokittelu-