Tokenrepresentasjoner
Tokenrepresentasjoner er numeriske fremstillinger av enkeltord eller andre tokens som brukes i naturlig språkbehandling for å konvertere tekst til tallverdier som maskiner kan prosessere. Representasjonene fanger informasjon om betydning, syntaks og kontekst og brukes som innganger til maskinlæringsmodeller.
Det finnes hovedsakelig to typer representasjoner: ikke-kontextuelle og kontekstuelle. Ikke-kontextuelle inkluderer en-hot encoding og ord-embeddings som
Tokenisering og underordnede enheter er sentrale. Subword-tokenisering som BPE, WordPiece og SentencePiece deler ord i mindre
Kontekstuelle representasjoner produseres av nevrale modeller og varierer med konteksten. Transformerbaserte modeller som BERT, GPT og
Egenskaper som dimensjon, avstand i representasjonsrom og evne til å fange semantikk og syntaks er sentrale.