similariteit
Similariteit is de mate van overeenkomst tussen twee of meer entiteiten, zoals objecten, teksten, concepten of mensen. In wiskundige en informatica-contexten wordt doorgaans een similarity-score gebruikt die meestal van 0 tot 1 loopt (soms -1 tot 1, afhankelijk van de maatstaf). Een hogere score duidt op grotere overeenkomst. Similariteit staat vaak in verhouding tot dissimilariteit of afstand, maar de exacte relatie hangt af van de gekozen maatstaf en normalisatie.
Toepassingen van similariteit zijn onder meer clustering, classificatie en informatieophaling, evenals aanbevelingssystemen. In tekst- en taalverwerking
Veel gebruikte maatstaven omvatten onder meer cosine similarity (op vectorrepresentaties), Jaccard-similarity (gedeelde kenmerken ten opzichte van
Overwegingen bij het meten van similarity zijn onder meer normalisatie, schaal en dimensionaliteit, datakwaliteit en bias.