Tokenizálás
Tokenizálás a természetes nyelvfeldolgozás (NLP) egyik alapművelete, amely a nyers szöveget alapegységekre bontja, általában tokenokra. Ezek az egységek lehetnek szavak, számjegyek, írásjelek vagy adott kontextusban kisebb alapelemek, amelyeket később feldolgoznak. A tokenizálás meghatározza, hogyan alakulnak ki a feldolgozási vagy keresési folyamatok alapvonalai, és befolyásolja a pontosságot különböző feladatokban.
Szótokenizálás során a szöveget szavakra és kapcsolódó írásjelekre bontják, figyelembe véve a kötőjeleket és egyes nyelvi
Módszertanok tekintetében léteznek szabályalapú, statisztikai/ML-alapú és hibrid megközelítések. A szabályalapú tokenizálás egyszerű és gyors, de nyelvspecifikus;
Kihívások közé tartozik a többnyelvű szövegek tokenizálása, a magyar nyelv morfológiája és írásmódja, az írásjelek, számok