Home

similariteit

Similariteit is de mate van overeenkomst tussen twee of meer entiteiten, zoals objecten, teksten, concepten of mensen. In wiskundige en informatica-contexten wordt doorgaans een similarity-score gebruikt die meestal van 0 tot 1 loopt (soms -1 tot 1, afhankelijk van de maatstaf). Een hogere score duidt op grotere overeenkomst. Similariteit staat vaak in verhouding tot dissimilariteit of afstand, maar de exacte relatie hangt af van de gekozen maatstaf en normalisatie.

Toepassingen van similariteit zijn onder meer clustering, classificatie en informatieophaling, evenals aanbevelingssystemen. In tekst- en taalverwerking

Veel gebruikte maatstaven omvatten onder meer cosine similarity (op vectorrepresentaties), Jaccard-similarity (gedeelde kenmerken ten opzichte van

Overwegingen bij het meten van similarity zijn onder meer normalisatie, schaal en dimensionaliteit, datakwaliteit en bias.

worden
verschillende
soorten
similarity
toegepast,
zoals
semantische
en
syntactische
gelijkenis,
om
documenten
te
vergelijken,
betekenis
te
bepalen
en
relaties
tussen
concepten
te
herkennen.
In
de
biowetenschappen
wordt
similarity
gebruikt
om
homologie
tussen
biologische
sequenties
te
onderzoeken.
het
totaal
aantal
kenmerken),
en
afstandsmaatstaven
zoals
Euclidische
of
Manhattan
afstand
(waar
sommige
toepassingen
deze
afstand
omzetten
in
een
overeenkomstscore).
Voor
teksten
en
strings
wordt
ook
Levenshtein-
of
edit-samenhang
gebruikt,
terwijl
semantische
similariteit
vaak
voortkomt
uit
woord-
of
zinembeddings
of
kennisgebaseerde
metingen.
Afhankelijk
van
de
context
kan
onderscheid
gemaakt
worden
tussen
syntactische
similarity
(vorm
en
structuur)
en
semantische
similarity
(betekenis).
Zie
ook
onderwerpen
zoals
patroonherkenning,
informatieophaling
en
semantische
modellering.