Home

Stoppwörtern

Stoppwörter, auch Stopwörter genannt, bezeichnet man Wörter, die in vielen Anwendungen der Textverarbeitung standardmäßig ignoriert oder mit geringerer Gewichtung behandelt werden. Dazu zählen häufig Funktionswörter wie Artikel, Präpositionen, Konjunktionen und gängige Pronomen. Der Begriff stammt aus der Information Retrieval und dem Text Mining.

Ziel ist es, die Dimensionalität eines Textkorpus zu verringern, die Größe von Indexen zu senken und die

Deutschsprachige Stoppwortlisten enthalten Beispiele wie der, die, das, und, in, zu, mit, von, ist. Engelsprachelisten beinhalten

Kritikpunkte betreffen die Kontextabhängigkeit von Bedeutungen: Das Entfernen von Stoppwörtern kann in manchen Fällen wichtige Informationen

Stoppwörter bleiben ein nützliches, aber kontextabhängiges Werkzeug in der Verarbeitung natürlicher Sprache und im Information Retrieval.

relevanten
Begriffe
besser
zu
identifizieren.
Typischerweise
werden
Stoppwörter
in
Listen
geführt,
die
je
nach
Sprache
angepasst
sind.
In
der
Praxis
werden
sie
während
der
Tokenisierung
aus
dem
Text
entfernt
oder
in
nachfolgenden
Analysen
mit
geringer
Gewichtung
berücksichtigt.
häufig
the,
and,
of,
to.
Es
gibt
allgemeine
Listen
sowie
domänen-
oder
anwendungsbezogene
Listen,
die
je
nach
Fachgebiet
angepasst
werden,
um
die
jeweilige
Relevanz
von
Wörtern
zu
reflektieren.
oder
den
Sinn
von
Phrasen
beeinträchtigen,
beispielsweise
bei
Negationen,
bestimmten
Suchanfragen
oder
Sprachnuancen.
Moderne
Such-
und
NLP-Systeme
nutzen
oft
kontextuelle
Signale
oder
gewichtete
Modelle
statt
harter
Stopword-Filtration.
Sie
finden
Anwendung
in
Suchmaschinen,
Text-Mining-Pipelines
und
linguistischen
Vorverarbeitungen.