attentionMechanismen
AttentionMechanismen, oft auch als Aufmerksamkeit bezeichnet, sind eine Klasse von Bausteinen in neuronalen Netzen, die es Modellen ermöglichen, bei der Verarbeitung einer Eingabe unterschiedliche Teile unterschiedlich stark zu berücksichtigen. Sie helfen, Abhängigkeiten in Sequenzen zu erfassen, unabhängig von deren räumlicher oder zeitlicher Distanz.
In der Praxis werden aus der Eingabe drei Vektoren erzeugt: Queries (Q), Keys (K) und Values (V).
Self-Attention bezeichnet den Fall, dass jedes Element einer Sequenz auf alle anderen Elemente derselben Sequenz achtet.
Transformer-Modelle basieren weitgehend auf Attention statt rekursiver Strukturen und ermöglichen eine parallele Verarbeitung. Sie haben sich
Anwendungsfelder umfassen maschinelle Übersetzung, Textzusammenfassung, Frage-Antwort-Systeme, Spracherkennung und visuelle Aufgaben. Vorteile der Attention umfassen die bessere
Historisch wurden Additive Attention (Bahdanau et al., 2015) und später Soft/Multiplicative Attention (Luong et al., 2015)