samankaltaisuusanalyysit
Samankaltaisuusanalyysit, tai similarity analyses, ovat joukko tilastollisia ja laskennallisia menetelmiä, joiden tarkoituksena on mitata ja arvioida kahden tai useamman kohteen tai datan samankaltaisuutta. Ne ovat keskeisiä monilla eri tieteenaloilla, kuten biologiassa, tietojenkäsittelytieteessä, kirjallisuudentutkimuksessa ja sosiaalitieteissä. Samankaltaisuuden mittaaminen auttaa ymmärtämään suhteita, löytämään malleja ja tekemään päätelmiä datasta.
Menetelmien valinta riippuu analysoitavan datan tyypistä ja tutkimuskysymyksestä. Esimerkiksi tekstidatan samankaltaisuutta voidaan mitata käyttämällä sanojen esiintymistiheyttä,
Yleisiä samankaltaisuusmittareita ovat muun muassa kosinisamankaltaisuus, Jaccardin indeksi ja Euklidinen etäisyys. Kosinisamankaltaisuutta käytetään usein korkeaulotteisen datan,
Samankaltaisuusanalyysien sovellukset ovat laajoja. Ne mahdollistavat esimerkiksi suositusjärjestelmien rakentamisen, luokittelualgoritmien kehittämisen, poikkeamien havaitsemisen ja datan klusteroinnin.