OOVProbleme

OOVProbleme (Out-of-Vocabulary-Probleme) treten in der Sprach- und Textverarbeitung auf, wenn Wörter erscheinen, die nicht im Vokabular des verwendeten Modells oder Systems enthalten sind. Sie betreffen häufig natürliche Sprachen, können aber auch in transkribierten Spracherkennungsdaten, maschinellen Übersetzungen oder Textklassifikatoren auftreten.

Ursachen sind Neologismen, Eigennamen, Fremdwörter, Fachtermini, Tippfehler, Umgebungen mit Code-Switching sowie Morphologie insbesondere bei agglutinierenden Sprachen.

Auswirkungen umfassen unsichere Vorhersagen, falsche Übersetzungen oder fehlerhafte Klassifikationen, sowie generellen Informationsverlust, weil das Modell nicht

Lösungsansätze umfassen subword-basierte Modelle wie Byte-Pair Encoding, WordPiece oder SentencePiece, die Wörter in sinnvollere Bruchstücke zerlegen.

Bewertung erfolgt oft über die OOV-Rate oder Abdeckungsgrade des Vokabulars im Testdatensatz; letztlich wird die Auswirkung

sprachspezifische

Sprachentwicklung

niedrig-resourcen-Sprachen

Charakterbasierte

Character-Repräsentationen)

Domänenanpassung,

Datenerweiterung

domänenspezifischen

Transliterationen

Fehlertolerante

Kontextrichtige

Wahrscheinlichkeitsabschätzungen

Spracherkennung

Sentimentanalyse