Home

transformerbaserade

Transformerbaserade modeller är en klass av artificiell intelligensmodeller som bygger på transformerarkitekturen, introducerad av Vaswani et al. 2017 i artikeln Attention Is All You Need. Kärnan i arkitekturen är självuppmärksamhet (self-attention), som gör det möjligt att väga olika delar av ingångssekvensen i varje lager, samt multi-head attention som delar upp uppmärksamheten i flera representationer samtidigt. Till skillnad från tidigare sekvensmodeller saknar transformerbaserade modeller rekurrenta eller konvolutionsbaserade komponenter, vilket gör träning och parallellisering mer effektiv. De använder positionskodning för att bevara ordningsinformation i sekvenser.

Typiska varianter inkluderar encoder-only modeller som BERT, decoder-only modeller som GPT och encoder-decoder modeller som T5.

Vanliga utmaningar inkluderar höga krav på beräkningskraft och data, risk för inbäddade partiskheter och felaktigheter samt

Modellerna
tränas
ofta
i
två
steg:
ett
massivt
förträningssteg
på
opersonliga
textkorpora
följt
av
finjustering
eller
anpassning
till
specifika
uppgifter.
De
är
särskilt
framgångsrika
inom
översättning,
frågesvar,
textgenerering
och
uppgiftsspecifika
anpassningar.
Både
språk-
och
multimodala
versioner
finns,
där
visuella
transformatorer
används
för
bild-
eller
videouppgifter.
begränsad
interpretabilitet
och
energiförbrukning.
Forskning
pågår
kring
mer
effektiva
arkitekturer,
bättre
träningstekniker
och
hållbar
modellutveckling.
Transformatorbaserade
modeller
har
blivit
dominerande
inom
moderna
AI-tillämpningar
och
fortsätter
att
påverka
forskning
och
näringsliv
över
flera
områden.