OOVProbleme
OOVProbleme (Out-of-Vocabulary-Probleme) treten in der Sprach- und Textverarbeitung auf, wenn Wörter erscheinen, die nicht im Vokabular des verwendeten Modells oder Systems enthalten sind. Sie betreffen häufig natürliche Sprachen, können aber auch in transkribierten Spracherkennungsdaten, maschinellen Übersetzungen oder Textklassifikatoren auftreten.
Ursachen sind Neologismen, Eigennamen, Fremdwörter, Fachtermini, Tippfehler, Umgebungen mit Code-Switching sowie Morphologie insbesondere bei agglutinierenden Sprachen.
Auswirkungen umfassen unsichere Vorhersagen, falsche Übersetzungen oder fehlerhafte Klassifikationen, sowie generellen Informationsverlust, weil das Modell nicht
Lösungsansätze umfassen subword-basierte Modelle wie Byte-Pair Encoding, WordPiece oder SentencePiece, die Wörter in sinnvollere Bruchstücke zerlegen.
Bewertung erfolgt oft über die OOV-Rate oder Abdeckungsgrade des Vokabulars im Testdatensatz; letztlich wird die Auswirkung