Home

Stopwoordenlijsten

Stopwoordenlijsten, ook wel stopwoorden genoemd, zijn lijsten met woorden die bij de verwerking van tekst vaak worden verwijderd omdat ze veel voorkomen en weinig betekenis toevoegen. Ze zijn meestal taalgebonden en kunnen ook domeinspecifiek zijn, wat betekent dat woorden die in één vakgebied nuttig zijn voor analyse elders als stopwoord kunnen gelden. Stopwoorden worden toegepast in informatieopslag, zoekmachines, tekstanalyse en natuurlijke taalverwerking om ruis te verminderen, de dimensionaliteit te verlagen en de prestaties van taken zoals zoeken, classificatie en samenvatten te verbeteren.

Constructie en varianten: lijsten kunnen statisch zijn, bijvoorbeeld algemene Nederlandse stopwoorden, of dynamisch en aangepast aan

Toepassingen en overwegingen: bij indexering en zoekopdrachten worden stopwoorden vaak verwijderd om de relevantie en efficiëntie

Voorbeelden: veelvoorkomende Nederlandse stopwoorden zijn woorden als de, het, een, en, van, ik, je, dat, met,

een
corpus
of
domein.
Ze
kunnen
enkelvoudige
woorden
bevatten,
maar
ook
multiword-stopwoorden
zoals
"in
ieder
geval"
of
"ten
minste"
komen
voor.
De
samenstelling
ontstaat
doorgaans
via
frequentieanalyse,
lexicale
criteria
en
taalregels;
sommige
lijsten
onderscheiden
ook
contextafhankelijke
stopwoorden.
te
verhogen.
Voor
tekstanalyse
en
machine
learning
kunnen
ze
echter
informatief
zijn
in
bepaalde
taken,
of
juist
nodig
om
bias
te
voorkomen.
Het
verwijderen
van
stopwoorden
kan
de
prestaties
schaden
in
korte
teksten
of
bij
talen
met
zware
morfologie,
en
domain-specificiteits
vereist
vaak
aanpassing
van
lijsten.
in,
op,
aan,
ook,
maar,
of,
dus.
De
exacte
samenstelling
verschilt
per
bron
en
per
toepassing.
Stopwoordenlijsten
worden
vaak
gebruikt
in
combinatie
met
tokenisatie
en
stemming.