woordafbakening
Woordafbakening is het proces van het opdelen van tekst in afzonderlijke tokens die als woorden gelden. In de linguïstiek en de informatica is dit essentieel voor analyse, zoektechnologie en taaltechnologie. De exacte definitie van wat een woord is, verschilt per taal en orthografie: in veel westerse talen wordt een woord meestal gezien als eenheid gescheiden door spaties, maar koppeltekens, apostrofs en samenstellingen compliceren de grens.
In de natuurlijke taalverwerking (NLP) is tokenisatie de eerste stap in de pipeline. De tokenisatie houdt rekening
Ambiguïteit ontstaat bij afgebakende vormen: bijvoorbeeld afkortingen, contracties, klitische vormen (zoals 't) en meervouds- of vervoegingsvormen
Het begrip is verwant aan lemmatizatie en stemming: tokenisatie levert de vorm die nader geanalyseerd kan worden,
Toepassingen omvatten zoekmachines, informatiesystemen, lexicografie en corpora-onderzoek. Correcte woordafbakening is cruciaal voor nauwkeurige metingen van woordfrequentie,