transformerarkkitehtuuriin - Infinite Lexicon - Infinite Lexicon

transformerarkkitehtuuriin

Transformer-arkkitehtuuri, yleisesti tunnettu nimellä transformer, on syväoppimisen malli, joka perustuu huomiointimekanismiin ilman perinteistä toistuvaa rakennetta. Se esiteltiin vuonna 2017 Vaswanin ja kollegoiden julkaisussa Attention Is All You Need.

Arkitehtuuri koostuu encoder- ja decoder-osiosta, jotka ovat toistensa päälle pinottuja kerroksia. Jokaisessa kerroksessa on kaksi pääosaa:

Tehokkuuden ja skaalautuvuuden vuoksi transformerit soveltuvat hyvin rinnakkaislaskentaan; ne mahdollistavat suurten kielimallien koulutuksen nopeammin kuin perinteisemmillä

Variaatiot ja laajennukset ovat muokanneet perusmallia erilaisiin tehtäviin. Encoder-only mallit kuten BERT, decoder-only mallit kuten GPT

Transformer-arkkitehtuuri on muodostanut nykyisen luonnollisen kielen käsittelyn (NLP) perustan ja mahdollistanut suurten kielimallien kehittämisen sekä siirtämisen

feed-forward-verkko.

huomiointikanavia

samanaikaisesti.

tallentamiseksi

positionaalista

normalizationia.

pitkäkestoisten

neliömäisesti

käyttötapoja.

Esikoulutuksessa

kielimallointia,

autoregressiivista

kielimallointia

sekvenssispohjaista