tabelgenkendelse - Infinite Lexicon - Infinite Lexicon

tabelgenkendelse

Tabelgenkendelse er processen med at opdage og udtrække tabeller fra dokumenter og at rekonstruere tabellens struktur og indhold i en maskinlæsbar form. Den består typisk af to trin: tabellokalisering og tabelstrukturgenkendelse. Først identificeres områder af siden, der indeholder tabeller. Dernæst bestemmes cellernes inddeling i rækker og kolonner, og teksten i hver celle genkendes gennem OCR og organiseres i et datasæt som CSV, JSON eller et SQL-skema.

Moderne systemer kombinerer ofte regelbaserede heuristikker med maskinlæring og dybe neurale netværk til at forbedre både

Anvendelser omfatter elektroniske arkiver, fakturaer, regnskabsdata og videnskabelig litteratur, hvor udtrukne tabeller integreres i databaser og

strukturgenkendelse.

(to-dimensionel

overskriftsrækker

analyseværktøjer.

Evalueringsmetoder

tilbageholdelse

tabellokalisering