Tokenizácia
Tokenizácia je proces rozdelenia textu na menšie jednotky, nazývané tokeny. V spracovaní prirodzeného jazyka (NLP) predstavuje základný krok pred ďalším spracovaním, ako je lemmatizácia, parsovanie alebo vektorovanie. Cieľom tokenizácie je správne zachovať význam a hranice medzi jednotkami, aby sa text dal efektívne analyzovať.
Existujú rôzne úrovne tokenizácie. Word tokenizácia rozdeľuje text na slová a interpunkciu. Subword tokenizácia (napr. BPE,
Metódy tokenizácie zahŕňajú jednoduchú tokenizáciu na základe bieleho priestoru (whitespace) a regulárne výrazy (regex); tiež používajú
Použitie tokenizácie zahŕňa prípravu textových dát pre modely strojového učenia, vyhľadávacie indexy, analýzu sentimentu, prekladanie a
Hodnotenie tokenizácie sa často opiera o porovnanie s ručne označenými korpusmi a metriky hraníc tokenov, presnosť