transformerarkkitehtuuriin
Transformer-arkkitehtuuri, yleisesti tunnettu nimellä transformer, on syväoppimisen malli, joka perustuu huomiointimekanismiin ilman perinteistä toistuvaa rakennetta. Se esiteltiin vuonna 2017 Vaswanin ja kollegoiden julkaisussa Attention Is All You Need.
Arkitehtuuri koostuu encoder- ja decoder-osiosta, jotka ovat toistensa päälle pinottuja kerroksia. Jokaisessa kerroksessa on kaksi pääosaa:
Tehokkuuden ja skaalautuvuuden vuoksi transformerit soveltuvat hyvin rinnakkaislaskentaan; ne mahdollistavat suurten kielimallien koulutuksen nopeammin kuin perinteisemmillä
Variaatiot ja laajennukset ovat muokanneet perusmallia erilaisiin tehtäviin. Encoder-only mallit kuten BERT, decoder-only mallit kuten GPT
Transformer-arkkitehtuuri on muodostanut nykyisen luonnollisen kielen käsittelyn (NLP) perustan ja mahdollistanut suurten kielimallien kehittämisen sekä siirtämisen