Home

OOVProbleme

OOVProbleme (Out-of-Vocabulary-Probleme) treten in der Sprach- und Textverarbeitung auf, wenn Wörter erscheinen, die nicht im Vokabular des verwendeten Modells oder Systems enthalten sind. Sie betreffen häufig natürliche Sprachen, können aber auch in transkribierten Spracherkennungsdaten, maschinellen Übersetzungen oder Textklassifikatoren auftreten.

Ursachen sind Neologismen, Eigennamen, Fremdwörter, Fachtermini, Tippfehler, Umgebungen mit Code-Switching sowie Morphologie insbesondere bei agglutinierenden Sprachen.

Auswirkungen umfassen unsichere Vorhersagen, falsche Übersetzungen oder fehlerhafte Klassifikationen, sowie generellen Informationsverlust, weil das Modell nicht

Lösungsansätze umfassen subword-basierte Modelle wie Byte-Pair Encoding, WordPiece oder SentencePiece, die Wörter in sinnvollere Bruchstücke zerlegen.

Bewertung erfolgt oft über die OOV-Rate oder Abdeckungsgrade des Vokabulars im Testdatensatz; letztlich wird die Auswirkung

Domänen-
oder
sprachspezifische
Besonderheiten
sowie
schnelle
Sprachentwicklung
führen
ebenfalls
zu
OOV-Wörtern.
sinnvoll
auf
das
unbekannte
Wort
transformieren
kann.
Die
Probleme
verschärfen
sich
in
niedrig-resourcen-Sprachen
oder
bei
stark
variierenden
Textformen.
Charakterbasierte
Modelle,
hybride
Ansätze
(Wort-
plus
Subword-
oder
Character-Repräsentationen)
und
dynamische
Lexika-Updates
helfen
ebenfalls.
Domänenanpassung,
Datenerweiterung
mit
domänenspezifischen
corpora
sowie
Transliterationen
und
Normalisierung
tragen
zur
Verringerung
der
OOV-Rate
bei.
Fehlertolerante
Modelle
und
Kontextrichtige
Wahrscheinlichkeitsabschätzungen
verbessern
zusätzlich
die
Robustheit.
auf
Endaufgaben
wie
Übersetzung,
Spracherkennung
oder
Sentimentanalyse
gemessen.