transformerpohjaiset
Transformerpohjaiset mallit ovat tekoälymalleja, jotka perustuvat Transformer-arkkitehtuuriin, esiteltyyn vuonna 2017 Vaswanin ja kumppaneiden julkaisuun “Attention Is All You Need”. Keskeinen idea on huomiointimekanismi, jonka avulla malli arvioi, miten eri syötteen osat vaikuttavat toisiinsa. Tämä toteutetaan useimmiten monikertaisena itsensä huomiointina (multi-head self-attention), jonka avulla malli käsittelee useita huomiointivirtauksia rinnakkain ja oppii pitkän aikavälin riippuvuuksia.
Transformer-mallit voivat olla encodereja (encoder-only), dekoodereita (decoder-only) tai sekä encoderin että decoderin yhdistelmiä (encoder-decoder). Esimerkkejä ovat
Edut ovat teoreettinen ja käytännön kyky oppia pitkiä riippuvuuksia ja skaalata suurella datalla sekä laskennalla. Rajoitteita
---