transformerbaserade

Transformerbaserade modeller är en klass av artificiell intelligensmodeller som bygger på transformerarkitekturen, introducerad av Vaswani et al. 2017 i artikeln Attention Is All You Need. Kärnan i arkitekturen är självuppmärksamhet (self-attention), som gör det möjligt att väga olika delar av ingångssekvensen i varje lager, samt multi-head attention som delar upp uppmärksamheten i flera representationer samtidigt. Till skillnad från tidigare sekvensmodeller saknar transformerbaserade modeller rekurrenta eller konvolutionsbaserade komponenter, vilket gör träning och parallellisering mer effektiv. De använder positionskodning för att bevara ordningsinformation i sekvenser.

Typiska varianter inkluderar encoder-only modeller som BERT, decoder-only modeller som GPT och encoder-decoder modeller som T5.

Vanliga utmaningar inkluderar höga krav på beräkningskraft och data, risk för inbäddade partiskheter och felaktigheter samt

i

förträningssteg

översättning,

uppgiftsspecifika

transformatorer

videouppgifter.

interpretabilitet

energiförbrukning.

träningstekniker

modellutveckling.

Transformatorbaserade

AI-tillämpningar