Transformerarkkitehtuurit - Infinite Lexicon - Infinite Lexicon

Transformerarkkitehtuurit

Transformerarkkitehtuurit ovat nykyaikaisten syväoppimismallien perusta erityisesti kielen ja visuaalisen tiedon käsittelyssä. Ne esiteltiin vuonna 2017 Vaswani ja kollegat artikkelissa Attention Is All You Need. Keskeinen idea on itsehuomiomekanismi (self-attention), jonka avulla malli voi painottaa syötteen kaikkia osia samanaikaisesti ja mallintaa pitkien riippuvuuksien vaihtelua ilman rekursiivisia rakenteita.

Arkkitehtuuri koostuu kerroksista, joissa on itsehuomiomekanismi sekä feed-forward-verkkoja. Itsehuomiomekanismi lasketaan kolmen matriisin avulla: kysymys (Q), avain

Variantteja ovat encoder-only mallit kuten BERT (tuki tehtävien esikoulutukselle), decoder-only mallit kuten GPT, sekä encoder-decoder -mallit

Koulutus ja tavoitteet: Transformer-mallit esikoulutetaan suurilla kokoelmilla, kuten suurella tekstidatalla tai multimodaalisilla aineistoilla. Tavoitteina käytetään esimerkiksi

Etuna ovat hyvä suorituskyky ja skaalautuvuus sekä kyky hallita pitkiä kontekstipituuksia. Haasteina ovat suurimmat datan ja

yhdistelmänä.

Vision-toteutukset,

käsittelemällä

kielenmallinnusta

autoregressiivista

kielenmallinnusta

denoising-objektiivin

hienosäädetään

tehtäväkohtaisesti.

itsehuomiomekanismissa

energiatehokkuutta,

retrieviallisia

multimodaalisia

lähestymistapoja.