Corpuslinguistik
Corpuslinguistik ist die wissenschaftliche Untersuchung von Sprache anhand großer elektronischer Textkorpora. Sie verbindet quantitative Analysen mit qualitativen Einsichten, um Muster, Variation und Bedeutungsbeziehungen in realen Sprachdaten abzuleiten.
Korpora werden je nach Ziel unterschiedlich gestaltet: Großkorpora der Allgemeinsprache, spezialisierte oder domänenspezifische Korpora, sowie Webkorpora.
Die methodische Arbeit umfasst Frequenz- und Kookkurrenzanalysen, Kollokationsmuster, KWIC-Suchen (Key Word in Context) sowie statistische Tests.
Anwendungsfelder reichen von Lexikografie, Sprachbeschreibung, Sprachdidaktik, Übersetzungsstudien bis zu NLP-Training und Sprachpathologie. Korpusgestützte Erkenntnisse dienen auch
Historisch war die Arbeit geprägt von englischsprachigen Korpora wie dem Brown Corpus (1961), dem LOB-Korpus, dem
Zu den Herausforderungen gehören Repräsentativität, Verzerrungen durch Sampling, Rechts- und Urheberfragen, Qualität der Annotation sowie Interoperabilität