Korpusaufbau

Korpusaufbau bezeichnet die Planung, Beschaffung, Verarbeitung und Annotation eines Textkorpus zu linguistischen Zwecken. Ziel ist es, ein systematisch zusammengestelltes Material bereitzustellen, das repräsentative Sprachdaten für empirische Analysen, Sprachmodellierung oder Methodentest ermöglicht. Korpora können generalisiert oder domänen- bzw. genrespezifisch sein und unterschiedliche Sprachen oder Varietäten umfassen.

Der Designprozess umfasst Festlegung von Zielen, Abgrenzung der Zielgrößen (Größe, Genres, Register), Auswahl geeigneter Quellen, Lizenzen

Die Annotation umfasst Transkription bzw. Textaufbereitung, Tokenisierung, POS-Tagging, Lemmatisierung, syntaktische und semantische Annotation, Named-Entity-Erkennung etc. Metadaten

Wichtige Aspekte sind Urheberrecht, Datenschutz, Zugangsbeschränkungen und Langzeitarchivierung. Nach der Fertigstellung erfolgt Dokumentation, Versionierung und Veröffentlichung

Digitalkonversion

Normalisierung.

Sampling-Strategien

Selektionsmethoden,

Repräsentativität

XML-/JSON-Strukturen;

Zuverlässigkeit.

Nutzungsbedingungen.