Home

WortformenErkennung

WortformenErkennung ist ein Begriff aus der Linguistik und der Computerlinguistik, der die Analyse einer Wortform mit dem Zweck beschreibt, deren Grundform (Lemma) sowie morphologische Merkmale zu bestimmen. In der Praxis geht es darum, aus einer gegebenen Form wie gelaufen, läuft oder Haaren die zentrale Basisform und Informationen zu Part of Speech, Kasus, Numerus, Tempus oder Modus abzuleiten. Die WortformenErkennung ist oft Bestandteil der morphologischen Analyse und der Lemmatisierung in NLP-Systemen.

Methoden reichen von regelbasierten Ansätzen mit Lexika und Paradigmen über finite-state-Transducer bis hin zu statistischen und

Anwendungsgebiete sind Information Retrieval, Text Mining, maschinelle Übersetzung, Rechtschreib- und Grammatikprüfung, OCR-Nachbearbeitung und Spracherkennung. Eine zuverlässige

Herausforderungen ergeben sich durch reichhaltige Morphologie, insbesondere in Deutsch, Finnisch oder Russisch, durch Komposita, Mehrdeutigkeit der

Zu den Ressourcen zählen Universal-Dependencies-Korpora und andere annotierte Datensätze. In der Forschung werden Morphologie-Analysen und Reinflektion

neuronalen
Modellen.
Regelbasierte
Systeme
verwenden
morphologische
Tabellen,
Muster
und
Transduktionsregeln,
während
maschinelle
Ansätze
auf
annotierten
Korpora
trainieren,
oft
mit
Subworttechniken
wie
Byte-Pair
Encoding
oder
Char-
und
Subword-Modellen.
In
starken
Sprachen
wie
Deutsch
werden
Produktivkomposita
und
komplexe
Flexionsparadigmen
besonders
berücksichtigt.
WortformenErkennung
verbessert
die
Zuordnung
von
Wortformen
zu
Lemmas
und
erleichtert
downstream-Aufgaben
wie
Named-Entity-Erkennung
oder
Sentimentanalyse.
Wortformen
und
unregelmäßige
Formen.
Ressourcenknappheit
in
vielen
Sprachen
sowie
die
Notwendigkeit,
Mehrdeutigkeiten
kontextabhängig
aufzulösen,
sind
ebenfalls
Hindernisse.
in
Wettbewerben
wie
SIGMORPHON
behandelt;
Tools
wie
UDPipe,
Stanza
und
SpaCy
unterstützen
morphologische
Analysen
in
verschiedenen
Sprachen.