transformatorbaserte
Transformatorbaserte modeller er nevrale nettverk som bygger på transformatorarkitekturen, lansert i 2017 av Vaswani og kolleger. De bruker selvoppmerksomhet for å modellere avhengigheter i sekvenser og kan trenes parallelt, noe som gir effektiv skala til store datasett. Modellene kan være encodere, decodere eller kombinasjoner av begge, og de har bidratt til betydelige fremskritt innen flere oppgaver.
Grunnleggende byggesteiner er tokenembeddings, posisjonskodet informasjon, multi-head self-attention og feed-forward-nettverk, samt residualforbindelser og normalisering. Pretraining på
Områder og eksempler: transformatorbaserte modeller dominerer naturlig språkbehandling og har også blitt tilpasset bilde- og multimodale
Fordeler og begrensninger: arkitekturen tillater læring av lange avhengigheter og stor parallellisering, men krever store datasett
Fremtidige retninger: forskningen fokuserer på effektivisering gjennom distillasjon og sparsitet, utvikling av mindre modeller for lavressursmiljøer,