Jaccardetäisyyden
Jaccardin etäisyys on kahden joukko A ja B välinen eron mitta. Sen perusidea on vertailla, kuinka paljon näillä käsittelyistä joukoista on yhteistä suhteessa niiden yhteenlaskettuun unioniin. Mitta on kehitetty sveitsiläisen kasvitieteilijän Paul Jaccardin toimesta ja julkaistu 1901. Sitä käytetään erityisesti ekologiassa, mutta sen sovellukset ulottuvat laajasti tietojenkäsittelyyn, teksti- ja bioinformatiikkaan sekä klusterointiin.
Määritelmä: Jaccardin etäisyys d_J(A,B) lasketaan kaavalla d_J(A,B) = 1 - |A ∩ B| / |A ∪ B|. Jaccardin etäisyys on aina
Binäärivektoreilla: Jos ominaisuudet esitetään siten, että 1 merkitsee läsnäoloa ja 0 poissaoloa, jaetaan tilastolliset tiketit M11
Ominaisuudet ja sovellukset: Jaccardin etäisyys on ei-negatiivinen, symmetrinen ja rajoittuva 0–1, ja se painottaa läsnäoloarvoja (1)