tähelepanumudeleid
Tähelepanumudelid on mehhanismid masinõppes, mis võimaldavad mudelil keskenduda sisendi eri osadele ja anda neile erineva tähtsuse. Tavaliselt toimib see nii, et iga sisendi osa jaoks luuakse päringud (queries), võtmed (keys) ja väärtused (values). Päringute ja võtmete vahelised skoorid arvutatakse ning pehmete kaaludena (softmax) normaliseeritakse. Seejärel kasutatakse neid kaale väärtuste kombineerimiseks, et moodustada kontekstivektor, mille alusel mudel teeb lõpliku väljundi või prediktsiooni. Tähelepanu võimaldab mudelist paremini hoida konteksti pikaajaliselt.
Erinevad tähelepanumudeli vormid hõlmavad additiivset (additive) tähelepanu ja dot-product (multiplicative) tähelepanu. Dot-product tähelepanu võib olla skaleeritud
Rakendused hõlmavad laia valikut: masintõlge, teksti genereerimine, küsimustele vastamine, kõnetöötlus ning multimodaalsed ülesanded, kus tekst ja