OCRvirheet
OCRvirheet ovat optisen tunnistuksen (OCR) prosessissa syntyviä virheitä tekstiin. Kun skannatut sivut tai valokuvista otetut kuvat muunnetaan digitaaliseksi tekstiksi, tulos voi poiketa alkuperäisestä kirjoitusasusta ja asettelusta.
Tyypillisiä virheitä ovat merkki- ja sanavaihtojen, puuttuvien tai ylimääräisten merkkien sekä virheellinen rivien ja sanojen jako.
Syyt virheisiin liittyvät pääosin kuvan laatuun: kohina, epäselvä kontrasti, skannauksen kulma, kuluneet tai harvinaisemmat kirjaimet sekä
Virheitä voidaan mitata merkkivirheprosentilla (CER) ja sanavirheprosentilla (WER). Parantamiseksi voidaan hyödyntää kuvanlaadun parantamista (esimerkiksi denoising, deskew
Sovellukset kattavat digitointiprojektit, kirjastot ja arkistot sekä tutkimus- ja teollisuusalat. OCRvirheet ovat yleinen haaste, mutta oikeilla