textenheter
Textenheter är de minima eller organiserade delarna som används för att analysera, beskriva och bearbeta text i språkvetenskap, informationsteknik och pedagogik. Begreppet täcker flera nivåer av språklig struktur, från enstaka tecken och ord till fraser, satser, meningar, stycken och större diskursiva enheter. Valet av textenhet beror på syftet: grammatisk analys kan fokusera på morfem och satser, medan informationssökning eller maskinell bearbetning ofta arbetar med tokeniserade ord eller n-gram.
I korpuslingvistik och natural language processing (NLP) är segmentering av textenheter en central process. Tokenisering delar
Begreppet innefattar också pragmatiska och diskursiva enheter som talhandlingar, tematiska enheter och koherenta stycken, vilka är