stoppordsborttagning
Stoppordsborttagning, eller stopword removal, är en teknik inom naturlig språkbehandling och informationsåtervinning där vanligt förekommande ord med låg semantisk betydelse tas bort från texten före vidare bearbetning. Stoppord definieras ofta som småord som förekommer mycket frekvent men bär lite innehåll på egen hand, till exempel formen av pronomen, konjunktioner och hjälpverb.
Implementeringen sker vanligtvis i en preprocesseringspipeline där texten först tokeniseras och normaliseras, därefter filtreras bort ord
Syftet är att minska den dimensionalitet som uppstår i textdata, spara beräkningskraft och hindra att mycket
Relation till modern NLP: i many transformerbaserade modeller är stoppordsborttagning inte alltid nödvändig eftersom modellerna lär