LayoutAnalyse
Layoutanalyse ist der Prozess der Bestimmung der strukturellen Aufteilung einer Seite oder eines Bildes in sinnvolle Bereiche wie Textblöcke, Überschriften, Grafiken oder Tabellen. Sie dient als Vorstufe für OCR, layoutbasierte Informationsgewinnung und digitale Archivierung, indem sie die Lesereihenfolge festlegt und die Inhalte semantisch charakterisiert.
Typische Aufgaben umfassen Seiten- und Blocksegmentierung, Erkennung von Spalten und Rasterstrukturen, Identifikation von Tabellen, Abbildungen und
Techniken der Layoutanalyse reichen von klassischen Heuristiken über Projektion, Linien- und Komponenten-Analysen bis hin zu Clustering-Verfahren.
Standards und Formate: Ergebnisse der Layoutanalyse werden häufig in PAGE XML, ALTO oder HOCR gespeichert, die
Herausforderungen ergeben sich aus der Vielfalt von Layouts, mehrspaltigen Seiten, handschriftlichen Notizen, unregelmäßigen Spalten und schlechter