Transformermodelle

TransformerModelle sind eine Familie neuronaler Netze, die für sequenzielle Aufgaben wie Sprache und Text entwickelt wurden und sich durch Self-Attention statt rekurrenter Strukturen auszeichnen. Durch die Möglichkeit, Abhängigkeiten zwischen beliebigen Positionen einer Eingabesequenz effizient zu modellieren, lassen sie sich mit großen Textmengen skalieren und liefern oft hohe Leistungswerte.

Der klassische Transformer besteht aus einem Encoder-Teil, der Eingaben verarbeitet, und einem Decoder-Teil, der Ausgaben erzeugt.

Varianten unterscheiden sich im Aufbau: Encoder-only Modelle wie BERT dienen primär der Repräsentationsbildung und dem Downstream-Transfer;

Anwendungen umfassen maschinelle Übersetzung, Textzusammenfassung, Frage-Antwort-Systeme, Textgenerierung und Code-Vervollständigung. Ihre Stärken liegen in der hohen Leistungsfähigkeit,

Historisch markierte der Aufsatz Attention is All You Need (2017) den Ausgangspunkt der Transformer-Ära; seitdem dominieren

Multi-Head-Attention,

feed-forward-Netzwerken,

Residualverbindungen

Normalisierung.

Encoder-Decoder-Modelle

unbeaufsichtigt

(Masked-Language-Modeling

Next-Token-Prediction)

Parallelisierbarkeit

Herausforderungen

Umweltwirkungen,

Interpretierbarkeit

Halluzinationen.

Sicherheitsmechanismen.

Transformer-Modelle