Tokenisointi
Tokenisointi on termi, jota käytetään kahdessa kontekstissa: luonnollisen kielen käsittelyssä (NLP) sekä tietoturvassa ja maksujenkäsittelyssä. Yleisesti kyse on joko tekstin jakamisesta pienempiin yksiköihin tai sensitiivisen tiedon korvaamisesta ei-herkällä tunnisteella. Molemmissa käyttötarkoituksissa tavoitteena on tehdä datasta hallittavaa, analysoitavissa olevaa ja suojattua.
NLP-tokenisaatio jakaa merkkijonon pienempiin yksiköihin, joita kutsutaan tokeniksi. Yleisimmät muodot ovat sanapohjainen tokenisointi, subword-tokenisointi (esim. BPE,
Tietoturva-tokenisointi vaihtaa arkaluontoisen tiedon ei-herkällä tunnisteella. Alkuperäinen data tallennetaan suojattuun vaultiin ja sovellukset käyttävät vain tokenia.
Suunnittelussa painottuvat avaintenhallinta, tokenien elinkaari sekä pääsynvalvonta. NLP-puolella huomio kiinnittyy kielen erityispiirteisiin, sanaston laajuuteen ja suorituskykyyn.
Tokenisointi on keskeinen käsite sekä kielen käsittelyssä että tietoturvassa.