StopwortFilterung
StopwortFilterung bezeichnet in der Informatik und Linguistik einen Vorverarbeitungsschritt, bei dem häufig vorkommende, semantisch wenig informative Wörter (Stopwörter) aus Textkorpora entfernt werden. Ziel ist es, die Dimensionalität zu reduzieren, Relevanzschätzungen zu verbessern und Speicherbedarf sowie Rechenzeit bei der Verarbeitung großer Textmengen zu verringern.
Der Prozess umfasst typischerweise Tokenisierung, Normalisierung (z. B. Kleinbuchstaben, Umgang mit Akzenten) und den Abgleich der
Stopwortlisten sind sprachspezifisch und können grob allgemein oder domänenspezifisch sein. Neben allgemeinen Listen existieren angepasste Listen
Die StopwortFilterung beeinflusst Maße wie Präzision und Recall in Suchmaschinen sowie Merkmalsgewichte in Textklassifikationen. Ein Nachteil
Anwendungen finden sich in Suchmaschinen, Text-Mining, Klassifikation, Clustering sowie in der Vorverarbeitung von Linguistic- oder Sentiment-Analysen.