Home

StemmingLemmatisierung

StemmingLemmatisierung bezeichnet in der natürlichen Sprachverarbeitung die beiden eng verwandten Techniken zur Textnormalisierung: Stemming reduziert Wörter auf einen gemeinsamen Stamm, während Lemmatisierung jedes Wort auf seine Grundform, das Lemma, zurückführt. Je nach Anwendungsfall können beide Verfahren separat eingesetzt oder in einer Pipeline kombiniert werden, um Varianten in Formulierungen zu verringern und die Vergleichbarkeit von Texten zu verbessern.

Stemming arbeitet in der Regel heuristisch und entfernt Suffixe oder wendet Stammbildungsregeln an. Das Ergebnis ist

Lemmatization geht einen Schritt weiter: Sie nutzt linguistische Analysen, Wörterbücher, Grammatikregeln und oft POS-Tags, um jedes

Anwendungen finden sich vor allem in Suchmaschinen, Information Retrieval, Textklassifikation, Themenmodellierung und Named-Entity-Erkennung. Herausforderungen umfassen Mehrsprachigkeit,

oft
kein
echtes
Wort,
sondern
ein
maskierter
Stamm,
was
die
Nachverfolgung
einzelner
Begriffe
etwas
erschwert.
Stemming
ist
in
der
Praxis
sehr
schnell.
Beliebte
Algorithmen
sind
Porter,
Snowball
und
Lovins;
für
Deutsch
existieren
spezialisierte
Varianten,
die
sich
mit
der
deutschen
Morphologie
auseinandersetzen.
Wort
auf
sein
Lemma
zu
reduzieren.
Das
Ergebnis
ist
in
der
Regel
ein
gültiges
Wort,
doch
der
Prozess
erfordert
mehr
Rechenleistung
und
Kontextinformation.
Die
Lemmatisierung
im
Deutschen
muss
mit
Flexion,
Komposita
und
Umlauten
umgehen
und
kann
daher
komplexer
sein
als
in
anderen
Sprachen.
domänenspezifische
Termen,
den
Umgang
mit
deutschen
Komposita
und
die
Bewertung
von
Stemming-
bzw.
Lemmatizierungsqualität.
Typische
Evaluationsmetriken
umfassen
Genauigkeit,
Fehlerquote
und
die
Auswirkungen
auf
nachgelagerte
NLP-Aufgaben.