Home

Annotationsebenen

Annotationsebenen bezeichnen in der Linguistik und der Datenannotation die verschiedenen Schichten von Markierungen, die einem Primärdatensatz hinzugefügt werden, um ihn analytisch nutzbar zu machen. Typische Anwendungsfelder sind Textkorpora, Audiodaten oder Videomaterial. Jede Ebene enthält Informationen einer bestimmten Art (Annotation), die sich auf Teile des Primärmaterials beziehen, oft durch Start- und Endpositionen oder Zeitmarken referenziert.

Mehrere Ebenen ermöglichen komplexe Analysen, ohne das Originalmaterial zu verändern. Die Annotationen können inline in das

Gängige Ebenen in Textkorpora umfassen Orthographie, Tokenisierung, Lemma, Wortart- bzw. morphosyntaktische Merkmale, syntaktische Strukturen, benannte Entitäten,

Die Erstellung mehrerer Ebenen erfordert klare Spezifikationen (Annotation Schemas), Formatstandards (z. B. TEI, XML, JSON) und

Anwendungen finden sich in der linguistischen Forschung, der Sprachtechnologie, der Verarbeitung natürlicher Sprache sowie in den

Material
eingefügt
oder
als
Stand-off-Notation
separat
gespeichert
werden.
Stand-off-Annotationen
sind
besonders
verbreitet,
da
sie
die
Integrität
des
Originals
bewahren
und
einfache
Aktualisierungen
sowie
Mehrfachannotationen
erleichtern.
Kohärenz-
oder
Coreferenz
sowie
semantische
Rollen
und
Diskursstruktur;
in
Audiodaten
ergänzen
Phonetik-Transkription,
Phonem-Timings,
Sprecheridentifikation
und
Prosodie
die
Transkription.
oft
aufeinander
abgestimmte
Terminologie
bzw.
Ontologien.
Zu
den
Herausforderungen
gehören
Inkonsistenzen
zwischen
Annotatoren,
Versionierung,
Interoperabilität
und
das
korrekte
Matching
von
Ebenen
bei
der
Auswertung.
digitalen
Geisteswissenschaften.