Stoppwortmodelle
Stoppwortmodelle bezeichnen Ansätze in der Verarbeitung natürlicher Sprache und Informationsbeschaffung, die sich mit Stoppwörtern beschäftigen. Stoppwörter sind häufig vorkommende Wörter wie Artikel, Präpositionen oder Funktionswörter, die in vielen Textanalysen geringe semantische Information tragen. Modelle legen fest, welche Wörter von Analysen ausgenommen oder speziell behandelt werden.
Es gibt statische Stoppwortlisten, die aus handverlesenen oder corpusbasierten Listen bestehen. Domänenspezifische oder dynamische Modelle lernen
Methoden erfolgen häufig über Häufigkeit, Dokumenthäufigkeit, tf-idf, gegenseitige Information (MI) oder Entropie. In der deutschen Sprache
Anwendungen umfassen Information Retrieval, Suchmaschinen, Textklassifikation, Topic Modeling und maschinelle Übersetzung. Effekte: Das Entfernen von Stoppwörtern
Herausforderungen ergeben sich durch Mehrsprachigkeit, Dialekte, komplexe Morphologie und kontextspezifische Bedeutung. Die Evaluation von Stoppwortmodellen erfolgt