bibliotheekcorpora
Bibliotheekcorpora zijn taalkundige corpora die bestaan uit teksten die bewaard worden in bibliotheken en vaak digitaal beschikbaar zijn gemaakt via nationale of universiteitsbibliotheken. In tegenstelling tot web- of nieuws corpora zijn bibliotheekcorpora doorgaans gebaseerd op ingescande of uitgegeven werken uit bibliotheekcollecties, zoals boeken, tijdschriften en zeldzame manuscripten. Ze kunnen historisch en hedendaags materiaal bevatten, waardoor ze geschikt zijn voor diachrone en representativiteitsstudies.
De samenstelling en dekking hangen af van de licenties en de digitale collecties van de betrokken instellingen.
Toegankelijkheid varieert: veel bibliotheekcorpora zijn beschikbaar voor wetenschappelijk onderzoek onder licentievoorwaarden; sommige zijn open via digitale
Toepassingen omvatten linguïstiek, diachrone taalverandering, lexicale en syntactische analyse, en vergelijkende studies tussen talen of tijdperken.
Uitdagingen zijn onder meer auteursrechten, representativiteit en bias in genres, ontbrekende of inconsistent metadata, en OCR-ruis