Tekstituvastusprotsessi
Tekstituvastusprotsess, tuntud ka kui optiline tekstituvastus (OCR), on tehnoloogia, mis võimaldab arvutitel tuvastada teksti piltidest. See protsess muundab skannitud dokumendid, PDF-failid või pildid muudetavaks ja otsitavaks tekstiks. Tekstituvastusprotsess koosneb tavaliselt mitmest etapist.
Esmalt toimub pildi ettevalmistus, mis hõlmab müra eemaldamist, pildi orientatsiooni korrigeerimist ja kontrasti suurendamist, et parandada
Pärast segmentimist toimub tähtede tuvastus. Seda tehakse erinevate algoritmide abil, mis võrdlevad tuvastatud tähemärke tuntud tähemärkide