samankaltaisuusindeksejä
Samankaltaisuusindeksit ovat mittareita, joita käytetään kvantifioimaan kahden tai useamman objektin, kuten merkkijonojen, dokumenttien tai kuvien, välistä samankaltaisuutta. Ne antavat numeerisen arvon, joka edustaa sitä, kuinka lähellä kohteet ovat toisiaan tietyn kriteeristön mukaan. Näitä indeksejä hyödynnetään monilla tietojenkäsittelytieteen ja tilastotieteen aloilla.
Yleisimpiä samankaltaisuusindeksejä ovat esimerkiksi Jaccard-indeksi ja kosinisamankaltaisuus. Jaccard-indeksi mittaa kahden joukon samankaltaisuutta laskemalla niiden leikkauksen suuruuden
Muita esimerkkejä samankaltaisuusindekseistä ovat Hamming-etäisyys, joka sopii binääristen merkkijonojen vertailuun, ja Levenshtein-etäisyys, joka mittaa kahden merkkijonon