Home

Distanzmaß

Distanzmaß bezeichnet in Mathematik, Statistik und Informatik eine Funktion, die zwei Elemente einer Menge X ein nicht negatives Maß zuordnet und damit deren räumliche Trennung quantifiziert. Formal ist es eine Abbildung d: X × X → [0, ∞). Distanzmaße dienen als Grundlage für Abstände in Datenräumen, Clustering, Nearest-Neighbor-Suchen und vielen anderen Verfahren.

In vielen Fällen wird von einer Metrik gesprochen, wenn das Distanzmaß die vier Axiome einer Metrik erfüllt:

Zu den gängigsten Distanzmaßen gehören die Lp-Normen als spezielle Fälle der Minkowski-Distanzen: Die Euclideische Distanz d2(x,y)=√∑(xi−yi)²,

Anwendungen umfassen Clustering (z. B. K-Means), Klassifikation, Dimensionalitätsreduktion, Mustererkennung und Ähnlichkeitsbewertungen. Bei der Wahl eines Distanzmaßes

Nichtnegativität,
Identität
der
Indistinguishierbarkeit
(d(x,y)=0
genau
dann,
wenn
x=y),
Symmetrie
(d(x,y)=d(y,x))
und
Dreiecksungleichung
(d(x,z)
≤
d(x,y)+d(y,z)).
Wird
eines
dieser
Axiome
gelockert,
spricht
man
von
Pseudometrik
(bei
fehlender
Identität)
oder
von
einer
generellen
Distanzfunktion,
die
nicht
notwendig
eine
Metrik
ist.
die
Manhattan-Distanz
d1(x,y)=∑|xi−yi|
und
die
Chebyshev-Distanz
d∞(x,y)=max|xi−yi|.
Allgemein
lässt
sich
eine
gewichtete
Lp-Distanz
d_p(x,y)=(∑
wi|xi−yi|^p)^{1/p}
verwenden.
Hamming-Distanz
zählt
Unterschiede
in
Zeichenfolgen
gleicher
Länge.
Dynamische
Zeitkern-Distanzen
wie
DTW
sind
Distanzmaße,
die
nicht
immer
eine
Metrik
erfüllen.
sind
Skalierung,
Dimensionalität,
Robustheit
gegenüber
Ausreißern
und
die
zugrunde
liegende
Struktur
der
Daten
zu
berücksichtigen.