Home

standaardlemma

Standaardlemma is een concept in de lexicografie en computational linguistics. Het verwijst naar de standaard- of canonieke vorm van een woord die als referentie dient in een lexicon of taalverwerkingssysteem. Deze vorm, het lemma, fungeert als centraal knooppunt waar alle inflecties en varianten van het woord aan worden toegewezen.

De selectie van een standaardlemma gebeurt op basis van taalregels en soms praktische conventies binnen een

In de praktijk is de standaardlemma cruciaal voor lemmatisering, indexering en synoniemenbeheer. Inflected vormen zoals loopt,

Uitdagingen omvatten homoniemen die meerdere lemmas hebben, meervoudsvormen die afwijken van het lemma, en multiword expressions

Zie ook: lemmatization, lexicon, morfologische analyse.

taalcollectie.
Voor
werkwoorden
is
vaak
de
infinitief
of
een
basisvorm;
voor
zelfstandige
naamwoorden
de
enkelvoudsvorm;
voor
bijvoeglijke
naamwoorden
de
basisvorming.
In
samengestelde
of
afgeleide
termen
kan
het
lemma
gebaseerd
zijn
op
de
semantische
kern.
In
sommige
systemen
kan
een
woord
meerdere
lemmas
krijgen
afhankelijk
van
context
of
domein.
liep
of
gelopen
worden
teruggeleid
naar
het
standaardlemma
lopen;
namen
en
plaatsen
kunnen
ook
een
lemma
hebben.
Een
lexicon
kan
verschillende
standaardlemmas
hanteren
voor
verschillende
taalvarianten
of
registers
(bijv.
standaard-Nederlands
versus
dialecten).
waarvoor
de
hele
uitdrukking
als
lemma
geldt.
Ook
spellingvarianten
en
eigennamen
vereisen
duidelijke
regels
om
de
standaardlemma
consistent
te
houden,
zodat
zoek-
en
analysetools
eenduidige
resultaten
leveren.