StemmingLemmatisierung
StemmingLemmatisierung bezeichnet in der natürlichen Sprachverarbeitung die beiden eng verwandten Techniken zur Textnormalisierung: Stemming reduziert Wörter auf einen gemeinsamen Stamm, während Lemmatisierung jedes Wort auf seine Grundform, das Lemma, zurückführt. Je nach Anwendungsfall können beide Verfahren separat eingesetzt oder in einer Pipeline kombiniert werden, um Varianten in Formulierungen zu verringern und die Vergleichbarkeit von Texten zu verbessern.
Stemming arbeitet in der Regel heuristisch und entfernt Suffixe oder wendet Stammbildungsregeln an. Das Ergebnis ist
Lemmatization geht einen Schritt weiter: Sie nutzt linguistische Analysen, Wörterbücher, Grammatikregeln und oft POS-Tags, um jedes
Anwendungen finden sich vor allem in Suchmaschinen, Information Retrieval, Textklassifikation, Themenmodellierung und Named-Entity-Erkennung. Herausforderungen umfassen Mehrsprachigkeit,