Transformermodellerna
Transformermodellerna är en familj neurala nätverksarkitekturer som bygger på Transformer-strukturen. De uppfanns 2017 av Vaswani och medarbetare i artikeln Attention Is All You Need och har sedan dess blivit dominerande inom naturlig språkbehandling. Huvudidén är självuppmärksamhet (self-attention) som låter modellen väga olika delar av inmatningen parallellt, vilket möjliggör effektivt lärande över långa textsekvenser utan återkommande eller konvolutionella lager.
Arkitekturen används ofta i två huvuddelar: en encoder som bearbetar ingångstext och en decoder som producerar
Exempel på välkända transformermodeller är BERT, GPT, T5 och RoBERTa. Dessa modeller används för uppgifter som
Begränsningar inkluderar höga beräkningskostnader och databehov, miljöpåverkan samt risker för inbyggda partiskheter. Modellerna kan vara svåra