OCRtekstiä
OCR-tekstiä (optisen tekstin tunnistus) tarkoittaa kuvan tai skannauksen sisällön muuntamista koneellisesti käsiteltäväksi tekstiksi. Se mahdollistaa painettujen ja käsin kirjoitettujen aineistojen digitaalisen hakemisen, muokkauksen ja tallentamisen.
Tyypillinen OCR-järjestelmän työprosessi koostuu esikäsittelystä (esim. kuvanlaadun parantaminen, kohinan poisto, deskew), sivun asettelun hallinnasta sekä merkkien
Sovelluksia ovat digitaalinen arkistointi, laskujen ja kuittien automaattinen käsittely, kirjojen ja lehtiartikkelien digitointi sekä saavutettavuuden parantaminen
Teknologian kehitys on siirtynyt perinteisistä OCR-menetelmistä end-to-end -järjestelmiin, joissa syväverkot ja kielimalleja hyödyntävät ratkaisut voivat parantaa
Rajoitteita ovat huono kuvanlaatu, monimutkainen asettelu (monisivuiset ja monikaariset sivut), taulukot sekä käsin kirjoitettu teksti. Mittareita