OCRQualität
OCRQualität beschreibt die Genauigkeit und Zuverlässigkeit der von optischer Zeichenerkennung erzeugten Textausgabe. Sie umfasst die Erkennung einzelner Zeichen und Wörter sowie die korrekte Zuordnung von Layoutinformationen wie Spalten, Tabellen und Absätzen. Die Qualität ergibt sich aus dem Quellmaterial, dem Erkennungsmodell und dem Nachbearbeitungsprozess.
Zu den zentralen Qualitätskennzahlen gehören der Zeichenfehlerquote (CER) und die Wortfehlerquote (WER). Oft werden auch die
Wichtige Einflussfaktoren sind Bildauflösung und Qualität (DPI, Rauschen, Kontrast), Ausrichtung (Skew, Verzerrung), Schriftart und -größe, Druckqualität,
Verbesserungen ergeben sich durch Vorverarbeitung (Rauschreduzierung, Dynamik, Deskew), Nachbearbeitung (Korrektur, Lexikon- oder Kontextmodelle) und domänenspezifisches Training.
Für ein robustes Qualitätsmanagement empfiehlt sich die Erstellung einer repräsentativen Ground-Truth-Grundlage, regelmäßiges Benchmarking, die Analyse von