SubwordModelle
SubwordModelle sind Tokenisierungsmethoden in der natürlichen Sprachverarbeitung, die Texte in Subwort-Einheiten zerlegen statt in ganze Wörter. Sie zielen darauf ab, das Problem unbekannter Wörter (Out-of-Vocabulary) zu verringern, die Robustheit gegenüber Neologismen zu erhöhen und die Verarbeitung morphologisch reicher Sprachen zu erleichtern. Subword-Tokenisierung ermöglicht es Modellen, Wörter durch kombinierte Subwort-Teile zu rekonstruieren.
Das Subword-Vokabular wird aus großen Textkorpora erlernt. Es gibt zwei verbreitete Ansätze: Byte-Pair Encoding (BPE) und
Beim BPE-Verfahren werden häufige benachbarte, Zeichen- oder Token-Paare schrittweise zu neuen Subword-Einheiten verschmolzen. WordPiece bewertet Subwörter
Anwendungen liegen insbesondere in Sprachmodellen, maschineller Übersetzung und Spracherkennung. Subword-Modelle reduzieren Vokabelgrenzen, ermöglichen robuste Verarbeitung unbekannter
Historisch haben sich Subword-Modelle seit Mitte der 2010er-Jahre durchgesetzt und sind in vielen modernen Systemen verbreitet,