taalbronnen

Taalbronnen zijn verzamelingen taalkundige data die onderzoekers en ontwikkelaars gebruiken om taal te bestuderen en taaltechnologie te bouwen. Ze omvatten geschreven en gesproken bronnen en vaak ook gestructureerde hulpmiddelen zoals lexicons en grammaticabeschrijvingen. Samen leveren taalbronnen de empirische basis voor descriptief onderzoek, lexicografie, onderwijs en automatische verwerking.

Typen taalbronnen zijn onder meer corpora (tekst- en spraakcorpora, inclusief parallelle corpora), woordenboeken en lexicons (monolingual

Toepassingen van taalbronnen omvatten taalonderzoek, lexicografie en onderwijs, evenals taaltechnologie zoals automatische vertaling, spraakherkenning en taalmodellering.

Belangrijke aandachtspunten bij taalbronnen zijn representativiteit en biases, betrouwbaarheid van annotaties, kwaliteitscontrole en interoperabiliteit tussen bronnen

morphosyntactische

beschrijvingen,

spectrogrammen)

annotatieschema’s,

herbruikbaarheid

reproduceerbaarheid

toegankelijkheid,

annotatiestandaarden.