tekstgelijkenheid
Tekstgelijkenheid is de mate waarin twee tekstfragmenten dezelfde betekenis overbrengen. Het is semantisch van aard: oppervlakkelijke overeenkomst telt minder dan de werkelijke betekenis. In de informatica wordt tekstgelijkenheid gebruikt om relaties tussen teksten vast te stellen, zoals parafrase of plagiaatdetectie.
Methoden variëren van traditionele lexicale technieken tot semantische benaderingen. Lexicale maten kijken naar woordvolgorde en aanwezigheid,
Er is een onderscheid tussen oppervlakkige en semantische gelijkenis. Monolinguale en meertalige (cross-linguale) gelijkenheid komen voor,
Toepassingen zijn onder meer informatieophaling, duplicaatdetectie, vraag-antwoord systemen en kwaliteitsbeoordeling van vertalingen of samenvattingen. Evaluatie gebeurt
Uitdagingen omvatten korte teksten, ruis, ironie en taalkundige varianten. Domeinspecifieke terminologie en culturele context kunnen de
Recente trends richten zich op diepe leermodellen en meertalige systemen, vaak met zins-embeddings. Deze modellen verbeteren