OCRspraakherkenning
OCRspraakherkenning is een multimodale benadering die het herkennen van tekst uit beeld (OCR) en het herkennen van gesproken taal (spraakherkenning) combineert om informatie uit zowel visuele als auditieve bronnen te verwerken. In de praktijk worden afbeeldingen, documenten en video’s geanalyseerd op tekst, terwijl audio wordt omgezet in tekst. Gezamenlijk maken deze processen tekstuele inhoud toegankelijk, doorzoekbaar en bruikbaar in combinatie met audio- of video-content.
Technisch gezien bestaat OCRspraakherkenning uit een OCR-module die tekst uit beeld extrahert en een spraakherkenningsmodule (ASR)
Toepassingen van OCRspraakherkenning omvatten digitalisering van documenten met audiovisuele annotaties, toegankelijkheidsoplossingen voor blinden en slechtzienden, realtime
Uitdagingen zijn onder meer de synchronisatie tussen beeldtekst en spraak, meertaligheid en verschillende tekentechnieken (handschrift versus
Hoewel de term relatief niche is, draagt OCRspraakherkenning bij aan multimodale AI-toepassingen en efficiëntere digitale toegankelijkheid