Home

Transformermodelle

TransformerModelle sind eine Familie neuronaler Netze, die für sequenzielle Aufgaben wie Sprache und Text entwickelt wurden und sich durch Self-Attention statt rekurrenter Strukturen auszeichnen. Durch die Möglichkeit, Abhängigkeiten zwischen beliebigen Positionen einer Eingabesequenz effizient zu modellieren, lassen sie sich mit großen Textmengen skalieren und liefern oft hohe Leistungswerte.

Der klassische Transformer besteht aus einem Encoder-Teil, der Eingaben verarbeitet, und einem Decoder-Teil, der Ausgaben erzeugt.

Varianten unterscheiden sich im Aufbau: Encoder-only Modelle wie BERT dienen primär der Repräsentationsbildung und dem Downstream-Transfer;

Anwendungen umfassen maschinelle Übersetzung, Textzusammenfassung, Frage-Antwort-Systeme, Textgenerierung und Code-Vervollständigung. Ihre Stärken liegen in der hohen Leistungsfähigkeit,

Historisch markierte der Aufsatz Attention is All You Need (2017) den Ausgangspunkt der Transformer-Ära; seitdem dominieren

Beide
Teile
setzen
auf
mehrfache
Schichten
mit
Multi-Head-Attention,
positioneller
Kodierung,
gefolgten
feed-forward-Netzwerken,
Residualverbindungen
und
Normalisierung.
Die
Attention
ermöglicht
es,
kontextuelle
Beziehungen
innerhalb
der
Sequenz
dynamisch
zu
gewichten.
Decoder-only
Modelle
wie
GPT
generieren
fortlaufenden
Text;
Encoder-Decoder-Modelle
wie
T5
oder
BART
kombinieren
beides
und
eignen
sich
für
Aufgaben
wie
Übersetzung
oder
Summarization.
Vortraining
erfolgt
typischerweise
unbeaufsichtigt
auf
großen
Korpora
(Masked-Language-Modeling
oder
Next-Token-Prediction)
und
wird
anschließend
feinjustiert
(Fine-Tuning)
auf
spezifische
Aufgaben.
der
Parallelisierbarkeit
des
Trainings
und
der
Fähigkeit
zum
Transferlernen
über
Aufgaben
hinweg.
Herausforderungen
sind
hoher
Rechen-
und
Datenbedarf,
Umweltwirkungen,
Verzerrungen,
Interpretierbarkeit
und
Tendenz
zu
Halluzinationen.
Forschung
zielt
auf
effizientere
Architekturen,
Distillation
und
gezielte
Sicherheitsmechanismen.
Transformer-Modelle
viele
Bereiche
der
NLP-Forschung
und
Anwendung.