Dokumentenkorpus
Ein Dokumentenkorpus ist eine Textkorpusform, die aus ganzen Dokumenten besteht, die als eigenständige Einheiten gespeichert und verwaltet werden. Im Gegensatz zu isoliert aus Textfragmenten zusammengesetzten Korpora fokussiert ein Dokumentenkorpus auf die Strukturen, Genres und Zusammenhänge ganzer Dokumente – etwa Zeitungsartikel, Gesetzestexte, Fachartikel oder Berichtsbände. Ziel ist es, linguistische Muster, stilistische Merkmale oder Informationsverhältnisse innerhalb realer Textsorten zu untersuchen und für Anwendungen im Information Retrieval, in der Computerlinguistik und der Digitalen Geisteswissenschaften nutzbar zu machen.
Aufbau und Verarbeitung: Ein Dokumentenkorpus enthält neben dem reinen Fließtext oft strukturierte Metadaten wie Autor, Datum,
Anwendungsfelder: Dokumentenkorpora dienen der sprachwissenschaftlichen Grundlagenforschung, historischer Linguistik, Genre- und Medienforschung sowie der Entwicklung von NLP-Tools