Tähemärktokeniseerijad
Tähemärktokeniseerijad, tuntud ka kui string-tokeniseerijad või tähemärkkotid, on arvutiteaduses kasutatav tehnika, mis jagab teksti väiksemateks üksusteks, mida nimetatakse tokeniteks. Need tokenid on tavaliselt üksikud tähemärgid või sõnad, sõltuvalt kasutatavast meetodist ja eesmärgist. Tokeniseerimine on oluline samm paljudes loodusliku keele töötluse (NLP) ülesannetes, nagu tekstianalüüs, otsingumootorid ja masintõlge.
Lihtsaim tähemärktokeniseerija jagab teksti üksikuteks tähemärkideks. Näiteks lause "Tere maailm!" tokeniseeritakse kui 'T', 'e', 'r', 'e',
Lisaks lihtsale sõnadeks jagamisele võivad tähemärktokeniseerijad rakendada ka täiendavaid reegleid, näiteks eemaldada peatähtede ja erimärke, et
Tähemärktokeniseerijate valik sõltub konkreetsest rakendusest. Lihtsate ülesannete puhul võib piisata lihtsast tähemärk- või sõnatokeniseerijast. Keerukamate NLP-ülesannete