Subwordinformasjon
Subwordinformasjon er informasjon knyttet til delordnede enheter i ord, for eksempel tegnbaserte n-gram, morfemer eller subword-tokener produsert av metoder som byte-pair encoding (BPE) eller SentencePiece. I naturlig språkprosessering brukes subwordinformasjon til å bygge ordrepresentasjoner fra mindre enheter, slik at modeller kan håndtere ord som ikke finnes i treningsdataene og bedre tilpasse seg språk med rik bøyning eller sammensetninger.
Subwordenheter skapes ofte ved to hovedretninger: tegnbaserte n-gram og lærte tokenizer-enheter via metoder som BPE eller
Fordeler inkluderer forbedret håndtering av ord som ikke finnes i treningsdataene, spesielt i språk med rik
Bruksområder inkluderer tekstanalyse, informasjonsgjenfinning, maskinoversettelse og språklige språkmodeller som bruker subwordtokenisering, for eksempel fastText sin ordrepresentasjon