itsehuomiomekanismi - Infinite Lexicon - Infinite Lexicon

itsehuomiomekanismi

itsehuomiomekanismi on syväoppimisessa käytetty mekanismi, jonka avulla sekvenssin jokainen elementti voi huomioida muut elementit ja muodostaa niihin liittyvän edustuksen. Yleensä se toteutetaan käyttämällä kolme projektioita: kysymykset (Q), avaimet (K) ja arvot (V). Attentionin peruslaskenta voidaan esittää muodossa Attention(Q,K,V) = softmax(Q K^T / sqrt(d_k)) V.

Jokaiselle sijainnille i lasketaan q_i ja kaikkien k_j suhteet pyyntönä: a_ij = softmax((q_i · k_j^T)/√d_k). Tämän jälkeen z_i

Rajoitukset ja kehityssuunnat: self-attention on usein O(n^2) sekä laskennallisesti että muistiltaan riippuvainen sekvenssin pituudesta, mikä rajoittaa

Sovellukset ja vaikutus: itsehuomiota käytetään laajasti transformer-pohjaisissa malleissa kuten BERT, GPT ja Vision Transformers, sekä puhe-

=

yhdistämällä

Moninapeallinen

vaihtoehtoihin,

käsiteltyään

sinusoidaaliset

arkkitehtuureihin