tabelgenkendelse
Tabelgenkendelse er processen med at opdage og udtrække tabeller fra dokumenter og at rekonstruere tabellens struktur og indhold i en maskinlæsbar form. Den består typisk af to trin: tabellokalisering og tabelstrukturgenkendelse. Først identificeres områder af siden, der indeholder tabeller. Dernæst bestemmes cellernes inddeling i rækker og kolonner, og teksten i hver celle genkendes gennem OCR og organiseres i et datasæt som CSV, JSON eller et SQL-skema.
Moderne systemer kombinerer ofte regelbaserede heuristikker med maskinlæring og dybe neurale netværk til at forbedre både
Anvendelser omfatter elektroniske arkiver, fakturaer, regnskabsdata og videnskabelig litteratur, hvor udtrukne tabeller integreres i databaser og