Home

gelijkenispercentage

Gelijkenispercentage is een numerieke maat die aangeeft hoeveel twee objecten op elkaar lijken, uitgedrukt als een percentage tussen 0% en 100%. Een hogere waarde wijst op een grotere gelijkenis; 100% betekent identiek volgens de gebruikte maatstaf. De term wordt toegepast in verschillende vakgebieden, zoals tekstvergelijking, databankdeduplicatie en beeld- of audioanalyse, en er bestaat geen eenduidige, universele formule.

Berekening en methoden

Afhankelijk van het type data bestaan verschillende gangbare methoden. Voor tekst kan men de Levenshteinafstand gebruiken;

Interpretatie en gebruik

Drempelwaarden voor wat als een “hoge” gelijkenis geldt, variëren per domein en per gebruikte methode. In plagiaatdetectie,

---

gelijkenispercentage
kan
bijvoorbeeld
worden
berekend
als
100
maal
(1
minus
afstand
gedeeld
door
de
maximale
lengte
van
de
twee
strings).
Bijvoorbeeld
tussen
"hond"
en
"pond"
is
de
afstand
1,
de
maximale
lengte
4,
dus
gelijkenis
≈
75%.
Voor
verzamelingen
geldt
de
Jaccard-coëfficiënt
(intersection
over
union)
maal
100.
Voor
vectorruimterepresentaties
kan
men
cosine
similarity
gebruiken;
bij
afbeeldingen
worden
vaak
structurele
gelijkenis-
of
perceptuele
maatstaven
ingevoerd.
De
gekozen
methode
bepaalt
hoe
het
percentage
interpreteerbaar
is.
deduplicatie
of
aanbevelingssystemen
is
het
belangrijk
rekening
te
houden
met
normalisatie,
voorkeurslengtes
en
mogelijke
bias
door
verwijzingen,
opmaak
of
metadata.
Een
gelijkenispercentage
geeft
alleen
een
abstracte
maat
van
overeenkomst
en
moet
altijd
worden
beschouwd
in
de
context
van
de
gebruikte
methode
en
data.