Home

stemminglemmatisering

Stemminglemmatisering is een methode in natuurlijke taalverwerking die zowel stemming als lemmatisering combineert om woorden te normaliseren voor taken zoals informatieophaling en tekstclassificatie. Stemming verwijdert affixen en reduceert een woord tot een stam, terwijl lemmatisering het woord omzet naar zijn lemma of woordenboekvorm op basis van grammaticale context. Bij stemminglemmatisering wordt doorgaans eerst gestemd en daarna gelemmatiseerd om varianten met dezelfde betekenis op consistente wijze te indexeren.

In een typische pipeline wordt eerst stemming toegepast om varianten van een woord te reduceren, gevolgd door

Voordelen omvatten vaak een betere recall in zoektoepassingen en een gestandaardiseerde representatie van woordvormen, wat de

Toepassingen zijn onder meer informatieophaling, tekstclassificatie, taalmodellering en automatische samenvatting. De aanpak is vooral relevant voor

Voorbeeld: 'lopen', 'loopt', 'liep' kunnen worden teruggebracht tot het lemma 'lopen'; de stemming kan deze vormen

lemmatisering
met
behulp
van
een
woordenboek
en
een
POS-tagger.
Soms
worden
beide
stappen
in
combinatie
toegepast
en
de
resultaten
samengevoegd
om
de
voordelen
van
beide
technieken
te
benutten.
Specifieke
bronnen
voor
de
Nederlandse
taal
zijn
daarbij
essentieel.
vergelijking
van
documenten
vereenvoudigt.
Nadelen
zijn
onder
meer
hogere
rekenlast,
afhankelijkheid
van
kwalitatieve
lexicons
en
tagging,
en
het
risico
dat
informatieve
details
verloren
gaan
bij
overmatige
normalisatie,
vooral
bij
zeldzame
of
juist
polysemische
termen.
talen
met
rijke
vervoegingspatronen
zoals
het
Nederlands.
verder
reduceren
tot
een
gemeenschappelijke
stam,
afhankelijk
van
het
gebruikte
algoritme.
In
combinatie
kan
dit
leiden
tot
een
robuuste
maar
soms
minder
precieze
normalisatie.