stemminglemmatisering - Infinite Lexicon - Infinite Lexicon

stemminglemmatisering

Stemminglemmatisering is een methode in natuurlijke taalverwerking die zowel stemming als lemmatisering combineert om woorden te normaliseren voor taken zoals informatieophaling en tekstclassificatie. Stemming verwijdert affixen en reduceert een woord tot een stam, terwijl lemmatisering het woord omzet naar zijn lemma of woordenboekvorm op basis van grammaticale context. Bij stemminglemmatisering wordt doorgaans eerst gestemd en daarna gelemmatiseerd om varianten met dezelfde betekenis op consistente wijze te indexeren.

In een typische pipeline wordt eerst stemming toegepast om varianten van een woord te reduceren, gevolgd door

Voordelen omvatten vaak een betere recall in zoektoepassingen en een gestandaardiseerde representatie van woordvormen, wat de

Toepassingen zijn onder meer informatieophaling, tekstclassificatie, taalmodellering en automatische samenvatting. De aanpak is vooral relevant voor

Voorbeeld: 'lopen', 'loopt', 'liep' kunnen worden teruggebracht tot het lemma 'lopen'; de stemming kan deze vormen

afhankelijkheid

vervoegingspatronen

gemeenschappelijke