Home

taalverwerking

Taalverwerking is een vakgebied binnen informatica en kunstmatige intelligentie dat zich richt op de automatische verwerking van menselijke taal. Het doel is computersystemen in staat te stellen taal te begrijpen, te analyseren, te interpreteren en te genereren. In het Engels wordt vaak gesproken over natural language processing (NLP).

Belangrijke taken omvatten tokenisatie, lemmatizatie, morfologische analyse en part-of-speech tagging; syntactische analyse (parsing); semantische analyse zoals

Technieken en modellen variëren van regelgebaseerde systemen tot statistische methoden en, sinds ongeveer de afgelopen tien

Toepassingen zijn onder meer zoekmachines, chatbots en virtuele assistenten, automatische vertaling, documentenanalyse, sentimentanalyse en contentmoderatie.

Uitdagingen en evaluatie: ambiguïteit, contextafhankelijkheid, bias en representatie van diverse gebruikersgroepen; privacy en data-beveiliging; en de

named
entity
recognition
en
coreferentie;
pragmatiek
en
discoursanalyse;
en
hoger
niveau
zoals
vertaling,
samenvatting,
informatie-extractie
en
vraag-antwoord-systemen.
tot
vijftien
jaar,
diepe
neurale
netwerken.
Oorspronkelijk
werkte
men
met
handmatige
grammatica
en
n-grammodellen;
tegenwoordig
domineren
grote
taalmodellen
zoals
BERT,
GPT-achtige
systemen
en
end-to-end
benaderingen
die
op
enorme
corpora
zijn
getraind.
Meertalige
en
cross-linguale
toepassingen
nemen
toe.
kosten
van
moderne
modellen.
Evaluatiemethoden
omvatten
metrics
als
BLEU,
ROUGE,
F1
en
perplexity;
en
benchmarks
zoals
CoNLL,
GLUE
of
SoNaR
voor
Nederlandse
data.
De
geschiedenis
van
taalverwerking
gaat
van
regelgebaseerde
systemen
naar
statistische
methoden
en
uiteindelijk
naar
diepe
neurale
netwerken
met
grootschalige
taalmodellen.