Home

corpuslinguïstiek

Corpuslinguïstiek is de studie van taal door middel van corpora, grote digitale verzamelingen teksten of gesproken materiaal die elektronisch beschikbaar zijn en geannoteerd kunnen worden. Een corpus biedt empirische data die toelaten taalkundige patronen, variatie en verandering te beschrijven.

Het veld ontstond in de tweede helft van de twintigste eeuw met de opkomst van computers en

Een corpus kan verschillende vormen aannemen: algemene taalcorpora met grote aantallen teksten uit diverse genres, gespecialiseerde

Toepassingen omvatten lexicografie, beschrijving van grammaticale patronen, taalonderwijs en taaltechnologie, zoals training data voor natuurlijke taalverwerking

elektronische
teksten
en
ontwikkelde
zich
tot
een
kernmethode
van
descriptieve
en
empirische
taalkunde.
Het
doel
is
taalgebruik
te
beschrijven
op
basis
van
feitelijke
waarnemingen
uit
echte
taalpraktijk,
in
tegenstelling
tot
puur
theoretische
beschrijvingen.
corpora
gericht
op
specifieke
vakgebieden
of
taalvarianten,
spraakcorpora
met
audio
en
transcripties,
en
historische
of
learner
corpora
die
taal
van
vroeger
of
van
leerders
in
kaart
brengen.
Corpuslinguïstiek
maakt
gebruik
van
annotatie
op
meerdere
niveaus,
zoals
tokenisatie,
lemmatisering,
POS-tagging,
syntactische
parsing
en
semantische
tagging.
Analyses
omvatten
frequentie-
en
cooccurrentieonderzoek,
n-grams
en
concordanties
om
patronen
en
variatie
te
ontdekken.
(NLP).
Uitdagingen
zijn
onder
meer
representativiteit,
bias
en
annotatiekwaliteit,
en
privacy.
De
toekomst
van
corpuslinguïstiek
ligt
in
grotere,
meer
diverse
corpora,
multimodale
en
longitudinal
datasets,
en
de
integratie
met
machine
learning.