Stemidentificatie
Stemidentificatie is het proces waarbij uit de vormen van een woord de onderliggende stam of basisvorm wordt vastgesteld. Het doel is om verwante woordvormen te groeperen en teksten efficiënter te verwerken, bijvoorbeeld bij zoeken, indexeren en tekstanalyse. In de informatieverwerking wordt vaak onderscheid gemaakt tussen stemming en lemmatizatie. Stemming levert een korte stam die soms geen zelfstandig woord is, terwijl lemmatizatie naar een woorddeel zoekt dat in een woordenboek als lemma voorkomt. Stemidentificatie kan beide benaderingen omvatten, afhankelijk van de toepassing en de beschikbare bronnen.
In de praktijk wordt stemidentificatie uitgevoerd met verschillende methoden. Rule-based stemmers passen afleidingsregels toe, zoals suffix-
Toepassingen van stemidentificatie zijn onder meer zoekmachines, tekstmining, informatieopslag en automatische vertaling. De Nederlandse taal vormt
Uitdagingen omvatten ambiguïteit bij meerdere mogelijke stammen, onbekende woorden, leenwoorden en varianten in spelling. Evaluatie van