subwordyksiköiden
Subwordyksiköiden käsite viittaa pienempiin kieliyksiköihin, joihin sanat jaetaan. Tämä mahdollistaa kielen käsittelyn myös sanoista, joita ei ole ollut koulutusdataa saatavilla, sekä tukee morfologisesti rikasta kieltä. Subwordyksiköiden käyttö auttaa erityisesti käsittelemään uusia sanoja ja yhdyssanoja säilyttäen kohtuullisen sanaston koon.
Subwordyksiköiden muodostaminen tapahtuu yleisesti tilastollisilla menetelmillä. Yleisimmät lähestymistavat ovat Byte Pair Encoding (BPE), WordPiece sekä Unigram-malliin
Hyödyt: pienempi sanasto, parempi mahdollisuus kattaa harvinaisia sanoja sekä uusia ilmaisuja, sekä parempi kyky hallita kieliä,
Rajoitteet: segmentointi voi olla epäintuitiivista tai riippuvaa koulutusaineiston laadusta; eri sovelluksissa valittu sanaston koko vaikuttaa suorituskykyyn;
Käytännössä subwordyksiköt ovat keskeisiä komponentteja nykyaikaisissa kielimalleissa ja konekäännöksessä. Esimerkiksi BERT- ja GPT-tyyppiset mallit sekä monikieliset