Home

taalbronnen

Taalbronnen zijn verzamelingen taalkundige data die onderzoekers en ontwikkelaars gebruiken om taal te bestuderen en taaltechnologie te bouwen. Ze omvatten geschreven en gesproken bronnen en vaak ook gestructureerde hulpmiddelen zoals lexicons en grammaticabeschrijvingen. Samen leveren taalbronnen de empirische basis voor descriptief onderzoek, lexicografie, onderwijs en automatische verwerking.

Typen taalbronnen zijn onder meer corpora (tekst- en spraakcorpora, inclusief parallelle corpora), woordenboeken en lexicons (monolingual

Toepassingen van taalbronnen omvatten taalonderzoek, lexicografie en onderwijs, evenals taaltechnologie zoals automatische vertaling, spraakherkenning en taalmodellering.

Belangrijke aandachtspunten bij taalbronnen zijn representativiteit en biases, betrouwbaarheid van annotaties, kwaliteitscontrole en interoperabiliteit tussen bronnen

en
bilinguaal),
grammaticas
en
morphosyntactische
beschrijvingen,
fonetische
bronnen
(geluidopnames
en
spectrogrammen)
en
semantische
databases
(woordenschat
en
thematische
netwerken)
met
bijbehorende
annotaties.
Bronnen
worden
vaak
aangevuld
met
metadata
zoals
taal,
register,
datum
van
verzamelen
en
licentie.
Data
worden
regelmatig
georganiseerd
volgens
internationale
standaarden
en
annotatieschema’s,
en
volgens
principes
zoals
FAIR
voor
herbruikbaarheid
en
vindbaarheid.
Open
toegankelijke
taalbronnen
bevorderen
reproduceerbaarheid
en
brede
toegankelijkheid,
terwijl
auteursrechten
en
privacyregels
beperkingen
kunnen
opleveren
voor
bepaalde
datasets.
en
annotaties.
Doorlopende
documentatie
en
duidelijke
licensing
zijn
cruciaal
om
bronnen
langjarig
bruikbaar
te
houden.
Zie
ook
verwante
termen
als
corpora,
lexicons
en
annotatiestandaarden.