Annotationsebenen

Annotationsebenen bezeichnen in der Linguistik und der Datenannotation die verschiedenen Schichten von Markierungen, die einem Primärdatensatz hinzugefügt werden, um ihn analytisch nutzbar zu machen. Typische Anwendungsfelder sind Textkorpora, Audiodaten oder Videomaterial. Jede Ebene enthält Informationen einer bestimmten Art (Annotation), die sich auf Teile des Primärmaterials beziehen, oft durch Start- und Endpositionen oder Zeitmarken referenziert.

Mehrere Ebenen ermöglichen komplexe Analysen, ohne das Originalmaterial zu verändern. Die Annotationen können inline in das

Gängige Ebenen in Textkorpora umfassen Orthographie, Tokenisierung, Lemma, Wortart- bzw. morphosyntaktische Merkmale, syntaktische Strukturen, benannte Entitäten,

Die Erstellung mehrerer Ebenen erfordert klare Spezifikationen (Annotation Schemas), Formatstandards (z. B. TEI, XML, JSON) und

Anwendungen finden sich in der linguistischen Forschung, der Sprachtechnologie, der Verarbeitung natürlicher Sprache sowie in den

Stand-off-Notation

Stand-off-Annotationen

Aktualisierungen

Mehrfachannotationen

Diskursstruktur;

Phonetik-Transkription,

Phonem-Timings,

Sprecheridentifikation

Herausforderungen

Interoperabilität

Geisteswissenschaften.