Tokeniseerimine
Tokeniseerimine on protsess, mille käigus jagatakse teksti või andmesse sisend väiksemateks üksusteks, mida nimetatakse tokeniteks. Keelevaldkonnas eraldatakse sageli sõnad, märgid ja morfeemid, et teksti analüüsida ning esitada masinõppe mudelitele sobivas vormis. Andmeturvalisuse kontekstis asendab tokeniseerimine tundlikke väärtusi mittetundlike tokenitega, mis vähendab riske andmete jagamisel.
Keeles saab tokeniseerimist jagada kolme peamise tüübi vahel: sõnavõrdne (word-level), alamtokenite (subword) ning märgisekvenseerimine (character-level). Subword-tehnikad,
Turvalisuse kontekstis kasutatakse tokeniseerimist tundlike andmete kaitsmiseks. Väärtused asendatakse tokenitega, mida hoitakse turvalises vaultis või võtmehoidlas;
Olulised kaalutlused puudutavad deterministlikku ja mitte-deterministlikku tokeniseerimist ning sobivate mapping- või vault-süsteemide turvalisust. See ei asenda
Rakendused hõlmavad loomuliku keele töötlust, teabeotsingut, andmete puhastamist ja regulatiivsete nõuete täitmist (nt PCI DSS). Tokeniseerimine