subwordtokeniseerimine
Subwordtokeniseerimine ehk alamssõnade jagamine on tekstitöötluse tehnika, mille eesmärk on teksti jagamine väiksemateks üksusteks, mis võivad olla sõna osad või morfeemid ning mida kasutatakse keelendite töötluse ja mudelite treenimise parandamiseks.
Kõige levinumad lähenemised on Byte-Pair Encoding (BPE), WordPiece ja SentencePiece. BPE alustab tähemärkidest ja lisab järjestikku
Koolitusprotsess käib suure tekstiandmestiku põhjal, mille järel ehitatakse suur subword-vocabulary. Mudeli treeningu käigus tekivad tükkide lõiked,
Eelised hõlmavad paremat üldistust haruldaste või keerukate vormide puhul ning väiksema jaotuse vokabulaari kasutamist suurtes mudelites.
Rakendused hõlmavad keeleteksti mudeldamist, masintõlget, kõnetuvastust ja suure väärtusega teksti töötlemist. Näide: sõna "programmeerimine" võib jaguneda