Tekstiyksiköt
Tekstiyksiköt ovat tekstin koostepaloja, joita käytetään kielitieteellisessä analyysissä ja tekstinkäsittelyssä. Ne toimivat sekä perusta- että analyysiyksiköinä, joiden avulla teksti voidaan jäsentää, vertailla ja tilastoida. Tekstiyksiköt voivat olla ortografisia sekä kielellisiä, ja niiden valinta riippuu tutkimuksen tavoitteista sekä sovelluksesta.
Yleisimmät tekstiyksiköt jaotellaan usein eri tasoihin: grapheemit (kirjaimet tai merkit), tavut, morfeemit, sanat, sanaryhmät (kielensisäiset kokonaisuudet
Tekstiyksiköiden valinta ja käsittely vaikuttavat moniin sovelluksiin: tekstikorpusten rakentamiseen, tiedonhaettamiseen, koneelliseen kääntämiseen sekä tunne- ja sisältöanalyysiin.