tokeniseerija
Tokeniseerija isiku- ja tekstitöötluses on tarkvara komponent, mis jagab toorteksti tokeniteks. Tokenid on teksti teisejärgulised üksused, mida kasutatakse edasistes protsessides nagu märgendamine, süntaktiline analüüs või keelemudelite õpetamine. Tokeniseerija võib välja anda sõnu, alamhulgatokenid (subword), kirjavahemärke või muid sümboleid sõltuvalt rakenduse granulaarsusest.
Tüübid ja meetodid: Sõnatokeniseerijad jagavad teksti tavaliselt tühikute ja kirjavahemärkide jälgimise teel. Subword-tokeniseerijad, näiteks Byte-Pair Encoding
Keeleline mitmekesisus: Eesti ja teised morfoloogiliselt rikkad keeled esindavad tokeniseerijale täiendavaid väljakutseid, nagu aglutinatsioon, liitsõnad ja
Tööriistad ja kitsaskohtad: Populaarsed kirjeldajad hõlmavad spaCy, NLTK, HuggingFace’i tokenizers, SentencePiece ja Moses. Väljakutsed hõlmavad sotsiaalmeedia
Seotud mõisted: natural language processing, morfoloogiline analüüs, tekstitöötlus.