Home

Korpusplanung

Korpusplanung ist ein Teilgebiet der Korpuslinguistik und bezeichnet die systematische Planung, Erstellung, Annotation, Bereitstellung und Langzeitpflege von Sprachkorpora. Ziel ist es, für Forschung, Entwicklung und Lehre repräsentative, reproduzierbare und nachhaltig nutzbare Sammlungen von Sprachdaten bereitzustellen, die transparent dokumentiert und rechtlich nutzbar sind.

Zu den zentralen Aufgaben gehören die Festlegung von Zielen und Anwendungsfeldern, die Bestimmung des Korpusdesigns (Sprachen-,

Standardisierung spielt eine zentrale Rolle, um Austausch und Interoperabilität zu ermöglichen. Dazu gehören Metadatenstandards (z. B.

Typische Ergebnisse sind ein definierter Korpus mit umfassenden Metadaten, eine Dokumentation der Erhebungsmethoden, festgelegte Annotationen und

Genre-
und
Domänenumfang,
Größe,
Sampling-Strategien),
die
Akquise
von
Daten,
Digitalisierung,
Transkription
und
Annotation
(Beispiele:
POS-Tags,
syntaktische
Strukturen,
Semantik),
sowie
die
Erstellung
von
Metadaten
und
die
Dokumentation
der
Erhebungsmethoden.
Wichtige
Aspekte
sind
zudem
Lizenzierung
und
Nutzungsbedingungen,
Datenschutz
und
Urheberrecht,
Datenqualität,
Reproduzierbarkeit
und
Versionierung,
sowie
Langzeitarchivierung
und
Zugänglichkeit.
Dublin
Core),
Dokumentationsformate
und
projektbezogene
Annotation-Schemata
sowie
gegebenenfalls
TEI-XML
oder
ähnliche
Strukturen.
Die
Korpusplanung
umfasst
außerdem
Entscheidungen
zur
Bereitstellungsform,
Zugriffssteuerung
und
Nutzungsbedingungen,
um
eine
verantwortungsvolle
Nutzung
sicherzustellen.
deren
Versionen
sowie
klare
Nutzungsrichtlinien
und
Bereitstellungsformate
(z.
B.
XML,
JSON,
Klartext).
Die
Planung
erfordert
Zusammenarbeit
zwischen
Linguisten,
Informatikern,
Archivierungsexperten
und
Rechteinhabern.
Zu
den
Herausforderungen
gehören
rechtliche
Fragen,
Repräsentativität,
Konsistenz
der
Annotation,
Skalierbarkeit
und
langfristige
Finanzierung.