Korpusaufbau
Korpusaufbau bezeichnet die Planung, Beschaffung, Verarbeitung und Annotation eines Textkorpus zu linguistischen Zwecken. Ziel ist es, ein systematisch zusammengestelltes Material bereitzustellen, das repräsentative Sprachdaten für empirische Analysen, Sprachmodellierung oder Methodentest ermöglicht. Korpora können generalisiert oder domänen- bzw. genrespezifisch sein und unterschiedliche Sprachen oder Varietäten umfassen.
Der Designprozess umfasst Festlegung von Zielen, Abgrenzung der Zielgrößen (Größe, Genres, Register), Auswahl geeigneter Quellen, Lizenzen
Die Annotation umfasst Transkription bzw. Textaufbereitung, Tokenisierung, POS-Tagging, Lemmatisierung, syntaktische und semantische Annotation, Named-Entity-Erkennung etc. Metadaten
Wichtige Aspekte sind Urheberrecht, Datenschutz, Zugangsbeschränkungen und Langzeitarchivierung. Nach der Fertigstellung erfolgt Dokumentation, Versionierung und Veröffentlichung