tekstituvastuse
Tekstituvastus, suomeksi tekstitunnistus, on optisen kuvatunnistuksen ala, jossa kuviin, skannauksiin tai valokuviin tallentunut teksti tunnistetaan ja muunnetaan konekieliseksi tai digitaaliseksi merkkijonoksi. Työnkulku koostuu useista vaiheista: kuvan esikäsittely, tekstin alueiden erottaminen (asetteluanalyysi), sekä itse tekstin tunnistus (OCR). Lopuksi tehdään jälkikäsittelyä, kuten oikolukua ja muotoilun palauttamista. Nykyään käytetään usein syväoppimismalleja ja suuria kielimalleja, jotka voivat käsitellä monenlaista kirjaintyyppiä, kieltä ja kirjoitusta. Tärkeä osa on myös taulukoiden ja asettelun tunnistaminen, jotta teksti voidaan palauttaa muotoilluna.
Tekstituvastusta hyödynnetään laajalti: digitaaliseen arkistointiin ja historiallisen materiaalin digitointiin, asiakirjojen hakemiseen ja automaattiseen tiedonpoimintaan, sekä saavutettavuuteen,
Mittareita: OCR:n tarkkuutta arvioidaan usein merkkivirheprosentilla (CER) tai sana-virheprosentilla (WER), sekä luotettavuudella ja asettelun palautumisella. Haasteita
Tietosuoja ja eettisyys: OCR-teknologia noudattaa tietosuojavaatimuksia ja voi edellyttää suojattujen aineistojen käsittelyä joko paikan päällä tai