Home

SubwordModelle

SubwordModelle sind Tokenisierungsmethoden in der natürlichen Sprachverarbeitung, die Texte in Subwort-Einheiten zerlegen statt in ganze Wörter. Sie zielen darauf ab, das Problem unbekannter Wörter (Out-of-Vocabulary) zu verringern, die Robustheit gegenüber Neologismen zu erhöhen und die Verarbeitung morphologisch reicher Sprachen zu erleichtern. Subword-Tokenisierung ermöglicht es Modellen, Wörter durch kombinierte Subwort-Teile zu rekonstruieren.

Das Subword-Vokabular wird aus großen Textkorpora erlernt. Es gibt zwei verbreitete Ansätze: Byte-Pair Encoding (BPE) und

Beim BPE-Verfahren werden häufige benachbarte, Zeichen- oder Token-Paare schrittweise zu neuen Subword-Einheiten verschmolzen. WordPiece bewertet Subwörter

Anwendungen liegen insbesondere in Sprachmodellen, maschineller Übersetzung und Spracherkennung. Subword-Modelle reduzieren Vokabelgrenzen, ermöglichen robuste Verarbeitung unbekannter

Historisch haben sich Subword-Modelle seit Mitte der 2010er-Jahre durchgesetzt und sind in vielen modernen Systemen verbreitet,

modellbasierte
Strategien
wie
WordPiece
oder
der
Unigram-Ansatz.
Beide
erzeugen
eine
endliche
Menge
von
Subword-Token,
die
Wörter
in
Sequenzen
von
Subworten
zerlegen
können.
Die
Wahl
des
Vokabulars
(Größe
und
Granularität)
beeinflusst
Genauigkeit,
Generalisierung
und
Rechenaufwand.
nach
ihrer
Likelihood
im
Training
und
wählt
jene
aus,
die
die
Sprachstruktur
am
besten
erklären.
Der
Unigram-Ansatz
sucht
ein
Subword-Vokabular,
das
die
beobachteten
Daten
am
besten
aus
einer
Wahrscheinlichkeitsverteilung
erklärt.
Die
Trainingsprozesse
beruhen
auf
unsupervised
Lernen.
Wörter
und
unterstützen
morphologisch
reiche
Sprachen.
Zu
den
Nachteilen
gehören
längere
Tokenfolgen
und
die
Abhängigkeit
der
Leistung
von
Vokabulargröße
und
Segmentierungsqualität.
darunter
BERT
und
verwandte
Architekturen.
Bibliotheken
wie
SentencePiece
oder
Tokenizers
bieten
Implementierungen.
Die
Methode
bleibt
ein
zentraler
Baustein
effizienter,
mehrsprachiger
NLP-Systeme.