Home

Korpusaufbau

Korpusaufbau bezeichnet die Planung, Beschaffung, Verarbeitung und Annotation eines Textkorpus zu linguistischen Zwecken. Ziel ist es, ein systematisch zusammengestelltes Material bereitzustellen, das repräsentative Sprachdaten für empirische Analysen, Sprachmodellierung oder Methodentest ermöglicht. Korpora können generalisiert oder domänen- bzw. genrespezifisch sein und unterschiedliche Sprachen oder Varietäten umfassen.

Der Designprozess umfasst Festlegung von Zielen, Abgrenzung der Zielgrößen (Größe, Genres, Register), Auswahl geeigneter Quellen, Lizenzen

Die Annotation umfasst Transkription bzw. Textaufbereitung, Tokenisierung, POS-Tagging, Lemmatisierung, syntaktische und semantische Annotation, Named-Entity-Erkennung etc. Metadaten

Wichtige Aspekte sind Urheberrecht, Datenschutz, Zugangsbeschränkungen und Langzeitarchivierung. Nach der Fertigstellung erfolgt Dokumentation, Versionierung und Veröffentlichung

und
Rechtsfragen
sowie
Digitalkonversion
und
Normalisierung.
Sampling-Strategien
reichen
von
Zufalls-
über
Schichtungs-
bis
hin
zu
gezielten
Selektionsmethoden,
um
Repräsentativität
und
Nutzbarkeit
zu
balancieren.
(Genre,
Autor,
Datum,
Quelle)
werden
in
einer
Struktur
abgelegt.
Typische
Formate
sind
TEI-XML,
andere
XML-/JSON-Strukturen;
oft
kommen
Standardtools
zum
Einsatz,
und
Interannotator
Agreement
prüft
die
Zuverlässigkeit.
des
Korpus
samt
Nutzungsbedingungen.
Beispiele
für
bekannte
Korpora,
die
durch
Korpusaufbau
entstanden
sind,
sind
der
British
National
Corpus
(BNC),
das
Corpus
of
Contemporary
American
English
(COCA)
und
die
Leipzig
Corpora
Collection.