tokenisoida
Tokenisoida on toiminto, jossa merkkijono tai teksti jaetaan pienempiin yksiköihin, joita kutsutaan tokeneiksi. Tokenisointia käytetään laajasti tietojenkäsittelyssä ja luonnollisen kielen käsittelyn (NLP) esikäsittelyvaiheessa sekä yksityisyyden suojaamiseen liittyvissä prosesseissa. Esimerkiksi lause "Kissa istuu pöydällä" voidaan tokenisoida sanoiksi tai pienemmiksi alimerkeiksi riippuen sovelluksesta.
NLP:ssä tokenointi on perusmenetelmä, jolla teksti muunnetaan säännölliseen muotoon, jota koneoppimismallit voivat käsitellä. Toteutustapoja ovat sanaväli-tokenointi
Toisaalta tokenisointia käytetään myös tiedon suojaamisessa. Tällöin herkkä tieto korvataan ei-herkällä tokenilla, jota muokataan järjestelmän toiminnan
Etymologia ja käyttö: suomen kielen termi tokenisoida on lainattu englannista tokenize. Sana esiintyy yleisesti IT- ja