Home

lemmatisering

Lemmatisering is een techniekn in de verwerking van natuurlijke taal die de verschillende vormen van een woord terugbrengt naar de basisvorm, het lemma. Het lemma is doorgaans de vorm die in woordenboeken wordt gebruikt en fungeert als de canonieke vorm van het woord. Door woorden te normaliseren naar hun lemma kunnen tekstdatasets consistenter worden geanalyseerd en vergeleken.

Het proces berust op taalkundige analyse: het combineert lexicons (woordenboeken) met morfologische regels en vaak ook

Lemmatisering verschilt van stemming. Stemming reduceert woorden tot een basale vorm of stam die soms geen

Toepassingen omvatten informatieopvraging en zoekmachines, tekstmining en machinevertaling. Lemmatisering verhoogt de vindbaarheid van varianten van hetzelfde

syntactische
tagging.
De
juiste
lemma
kan
afhangen
van
de
grammaticale
rol
van
een
woord
in
de
zin.
Zo
kan
in
het
Nederlands
bijvoorbeeld
loop
evolueren
naar
lopen,
afhankelijk
van
tijd
en
getal,
en
wordt
bijvoorbeeldgelopen
of
gelopen
herschapen
naar
lopen.
Ook
zelfstandig
naamwoorden
zoals
mannen
en
vrouwen
kunnen
teruggebracht
worden
naar
man
en
vrouw,
terwijl
meerdere
regels
voor
bijvoeglijke
naamwoorden
en
participia
toegepast
kunnen
worden.
Moderne
systemen
gebruiken
vaak
statistische
modellen
en
machine
learning
om
de
juiste
lemma
te
kiezen
in
context.
echt
woord
is
in
de
taal,
terwijl
lemmatisering
probeert
een
geldig
lemma
terug
te
geven
dat
in
woordenboeken
voorkomt.
Dit
maakt
lemmatiseringsresultaten
betrouwbaarder
voor
linguïstisch
onderzoek
en
voor
toepassingen
die
semantische
nauwkeurigheid
vereisen.
woord
en
draagt
bij
aan
consistente
analyse
van
grote
tekstcorpora.
Uitdagingen
blijven
bestaan
bij
talen
met
rijke
morfologie,
onregelmatige
vormen
en
polysemi,
en
bij
out-of-vocabulary-woorden.