Cosineavstand
Cosineavstand er en måling af dissimilaritet mellem to vektorrepræsentationer baseret på orienteringen af vektorerne i stedet for deres størrelse. Den bygger på cosine similarity, defineret som cos(v, w) = (v · w) / (||v|| · ||w||). Cosineavstanden defineres ofte som d = 1 − cos(v, w). Hvis begge vektorer er enhedsvektorer (||v|| = ||w|| = 1), forenkles udtrykket til d = 1 − v · w.
Bemærk: 1 − cos(v, w) er ikke en ægte metrisk afstand på R^n, da to ikke-identiske vektorer, der
Anvendelser: Cosineavstand bruges ofte i tekstmining og dokumentlignende opgaver, hvor vektorrepræsentationer som TF-IDF eller ordindbæring (word
Begrænsninger: Den undgår nulvektorer, da cos(v,w) er udefineret, hvis mindst en vektor er nul. Den kan også
Beregningsaspekter: For data i høj dimension er det almindeligt at normalisere til enhedsvektorer og beregne d =