tekstudvinding
Tekstudvinding refererer til processen med at udtrække og organisere skriftlig tekst fra forskellige kilder for videre behandling i databaser, arkiver og analyseværktøjer. I praksis ligger det tæt op ad tekstmining og informationsekstraktion og kan omfatte både udtræk af tekst fra billedbaserede dokumenter ved hjælp af optisk tegngenkendelse (OCR) og udtræk af tekst fra digitale dokumenter og websider.
Processen følger typisk et workflow, der starter med tekstindsamling og, ved behov, OCR for billeddokumenter. Herefter
Anvendelser af tekstudvinding omfatter søgesystemer og digitale arkiver, dataanalyse, overvågning af overholdelse af regler, sentimentanalyse, emnemodellering
Vigtige udfordringer omfatter OCR-fejl i dårligt skannede dokumenter, kompleks layout, håndtering af tabeller, multi-sprogige tekster og