SubwordModelle

SubwordModelle sind Tokenisierungsmethoden in der natürlichen Sprachverarbeitung, die Texte in Subwort-Einheiten zerlegen statt in ganze Wörter. Sie zielen darauf ab, das Problem unbekannter Wörter (Out-of-Vocabulary) zu verringern, die Robustheit gegenüber Neologismen zu erhöhen und die Verarbeitung morphologisch reicher Sprachen zu erleichtern. Subword-Tokenisierung ermöglicht es Modellen, Wörter durch kombinierte Subwort-Teile zu rekonstruieren.

Das Subword-Vokabular wird aus großen Textkorpora erlernt. Es gibt zwei verbreitete Ansätze: Byte-Pair Encoding (BPE) und

Beim BPE-Verfahren werden häufige benachbarte, Zeichen- oder Token-Paare schrittweise zu neuen Subword-Einheiten verschmolzen. WordPiece bewertet Subwörter

Anwendungen liegen insbesondere in Sprachmodellen, maschineller Übersetzung und Spracherkennung. Subword-Modelle reduzieren Vokabelgrenzen, ermöglichen robuste Verarbeitung unbekannter

Historisch haben sich Subword-Modelle seit Mitte der 2010er-Jahre durchgesetzt und sind in vielen modernen Systemen verbreitet,

Unigram-Ansatz.

Generalisierung

Subword-Vokabular,

Wahrscheinlichkeitsverteilung

Trainingsprozesse

Vokabulargröße

Segmentierungsqualität.

Implementierungen.