Transformerarkkitehtuurit
Transformerarkkitehtuurit ovat nykyaikaisten syväoppimismallien perusta erityisesti kielen ja visuaalisen tiedon käsittelyssä. Ne esiteltiin vuonna 2017 Vaswani ja kollegat artikkelissa Attention Is All You Need. Keskeinen idea on itsehuomiomekanismi (self-attention), jonka avulla malli voi painottaa syötteen kaikkia osia samanaikaisesti ja mallintaa pitkien riippuvuuksien vaihtelua ilman rekursiivisia rakenteita.
Arkkitehtuuri koostuu kerroksista, joissa on itsehuomiomekanismi sekä feed-forward-verkkoja. Itsehuomiomekanismi lasketaan kolmen matriisin avulla: kysymys (Q), avain
Variantteja ovat encoder-only mallit kuten BERT (tuki tehtävien esikoulutukselle), decoder-only mallit kuten GPT, sekä encoder-decoder -mallit
Koulutus ja tavoitteet: Transformer-mallit esikoulutetaan suurilla kokoelmilla, kuten suurella tekstidatalla tai multimodaalisilla aineistoilla. Tavoitteina käytetään esimerkiksi
Etuna ovat hyvä suorituskyky ja skaalautuvuus sekä kyky hallita pitkiä kontekstipituuksia. Haasteina ovat suurimmat datan ja