ordmatchning
Ordmatchning är en central teknik inom textanalys och informationssökning som innebär att avgöra om ett textstycke innehåller ett eller flera givna ord eller hur två texter överensstämmer genom gemensamma ord. Målet är att hitta relevanta träffar baserade på ordnivå eller ordsekvenser.
Processen innefattar vanligtvis tokenisering (delning av text i ord eller token), normalisering (till exempel att göra
Utöver exakt matchning används även delords- eller frammatchning (substring eller n-gram), där man letar efter ordsekvenser
Användningsområden inkluderar sökmotorer och informationsåtervinning, innehållsfiltrering och övervakning, plagiatdetektering, textklassificering och klustring. För svenska och andra
Utmaningar inkluderar polysemi (ord med flera betydelser), synonymer, kontextens betydelse och prestanda vid stora datamängder. Korrela
Se även: textmatching, informationsåtervinning, stemming, lemmatization, fuzzy matching.