Tokenointitapoja
Tokenointitapoja tarkoitetaan tekstin pilkkomista pienempiin yksiköihin, joita tietokonemallit voivat käsitellä. Yleisimmät yksiköt ovat sanat, mutta modernit mallit voivat käyttää myös alamerkkejä (subwordeja) tai yksittäisiä merkkejä. Valinta vaikuttaa sekä suorituskykyyn että ymmärrettävyyteen downstream-tehtävissä.
Sana- tai sanalähtöinen tokenointi jakaa tekstin sanoiksi ja erismerkeiksi yleensä välilyöntien ja välimerkkien perusteella. Tämä on
Subword-tokenointi on nykyisin yleistä suurissa kielimalleissa. Menetelmät kuten Byte-Pair Encoding (BPE), WordPiece ja Unigram jakavat sanat
Merkkikohtainen tokenointi käsittelee tekstin jokaisen merkin erillisenä tokenina. Tämä on erityisen robusti kirjoitusvirheitä ja koodausvikoja vastaan,
Morfologinen ja dekomponentointi, sekä dekomponointi yhdys sanoiksi erityisesti suomessa, tähtää siihen, että monimutkaiset taivutukset ja yhdyssanat
Kielteisesti mainitut: kielen ominaisuudet, kuten taivutus, sanajärjestys ja kirjoitusnormit, vaikuttavat valintaan. Unicode-normalisointi, diakriittisten merkkien käsittely ja
Käytännössä valinta riippuu kielestä, käytettävästä tehtävästä, datan määrästä ja laskentaresursseista. Tunnetuimpia työkaluja ovat spaCy, Stanza, HuggingFace