Subwordtokeniseerijad
Subwordtokeniseerijad on tekstide töötlemise tööriistad, mida kasutatakse keeleandmete analüüsimisel ja eeltöötlemisel, võimaldades sõnade jagamist väiksemateks ühikuteks ehk alamtükkideks (subword units). Need meetodid on eriti kasulikud hõlmatusel ning sageli kasutatakse masinõppes keelemude tegemiseks, suurema sõnavara ja vähem out-of-vocabulary (OOV) sõnadega.
Subwordtokeniseerimine aitab säilitada tasakaalu tervete sõnade ning väiksemate, frekventsemate alamtükkide vahel, parandades mudelite üldistamist ja efektiivsust.
BPE on üsna populaarne meetod, mille puhul kõige sagedamini esinevad sõnastiku osad asendatakse sageli korduvate paarega,
Subwordtokeniseerijad on laialdaselt kasutusel loodusliku keele töötlemise (NLP) süsteemides, sealhulgas masinõppes ning tehisintellektis, võimaldades paremat keelemodelleerimist,