transformerbaserade
Transformerbaserade modeller är en klass av artificiell intelligensmodeller som bygger på transformerarkitekturen, introducerad av Vaswani et al. 2017 i artikeln Attention Is All You Need. Kärnan i arkitekturen är självuppmärksamhet (self-attention), som gör det möjligt att väga olika delar av ingångssekvensen i varje lager, samt multi-head attention som delar upp uppmärksamheten i flera representationer samtidigt. Till skillnad från tidigare sekvensmodeller saknar transformerbaserade modeller rekurrenta eller konvolutionsbaserade komponenter, vilket gör träning och parallellisering mer effektiv. De använder positionskodning för att bevara ordningsinformation i sekvenser.
Typiska varianter inkluderar encoder-only modeller som BERT, decoder-only modeller som GPT och encoder-decoder modeller som T5.
Vanliga utmaningar inkluderar höga krav på beräkningskraft och data, risk för inbäddade partiskheter och felaktigheter samt