Home

StopwortFilterung

StopwortFilterung bezeichnet in der Informatik und Linguistik einen Vorverarbeitungsschritt, bei dem häufig vorkommende, semantisch wenig informative Wörter (Stopwörter) aus Textkorpora entfernt werden. Ziel ist es, die Dimensionalität zu reduzieren, Relevanzschätzungen zu verbessern und Speicherbedarf sowie Rechenzeit bei der Verarbeitung großer Textmengen zu verringern.

Der Prozess umfasst typischerweise Tokenisierung, Normalisierung (z. B. Kleinbuchstaben, Umgang mit Akzenten) und den Abgleich der

Stopwortlisten sind sprachspezifisch und können grob allgemein oder domänenspezifisch sein. Neben allgemeinen Listen existieren angepasste Listen

Die StopwortFilterung beeinflusst Maße wie Präzision und Recall in Suchmaschinen sowie Merkmalsgewichte in Textklassifikationen. Ein Nachteil

Anwendungen finden sich in Suchmaschinen, Text-Mining, Klassifikation, Clustering sowie in der Vorverarbeitung von Linguistic- oder Sentiment-Analysen.

Tokens
mit
vordefinierten
Stopwortlisten.
Werden
Treffer
in
der
Liste
gefunden,
werden
sie
aus
dem
Text
oder
dem
Index
entfernt.
In
manchen
Systemen
bleiben
Stopwörter
erhalten,
wenn
sie
für
die
Semantik
oder
syntaktische
Struktur
der
Anfragen
wichtig
sind,
z.
B.
bei
bestimmten
Phrasenabfragen
oder
in
der
Spracherkennung.
für
Fachgebiete,
Marketingtexte
oder
soziale
Medien.
Systeme
ermöglichen
oft
benutzerdefinierte
Listen,
dynamische
Anpassungen
oder
das
Abschalten
der
Filterung
je
nach
Anwendungsfall.
besteht
darin,
dass
bedeutungsvolle
Informationen
in
manchen
Kontexten
durch
das
Entfernen
verloren
gehen
können,
insbesondere
in
Sprachen
mit
hohem
morphologischen
Reichtum
oder
wenn
Stopwörter
essenzielle
syntaktische
Hinweise
liefern.
In
modernen
Informationsabruf-
und
NLP-Pipelines
wird
die
Notwendigkeit
der
Filterung
oft
kontextsensitiv
bewertet
oder
durch
fortgeschrittene
Modelle
ersetzt,
die
Wortordnung
und
Kontext
berücksichtigen.
Alternatives
Ansätze
umfassen
gewichtete
Filterung
(statt
strikter
Entfernung)
oder
die
Beibehaltung
bestimmter
Stopwörter
zur
Erhaltung
syntaktischer
Informationen.
Beispiele
für
gängige
Stopwörter
in
Deutsch
sind
Wörter
wie
der,
die,
das,
und;
in
Englisch
the,
is,
at,
which.