Home

woordfrequentie

Woordfrequentie is een statistische maat die aangeeft hoe vaak een woord voorkomt in een tekst of taalcorpus. Het kan worden uitgedrukt als een absoluut aantal optellingen (het aantal keren dat het woord voorkomt) of als relatieve frequentie (bijv. een percentage of het aantal keren per miljoen woorden). In corpuslinguïstiek is woordfrequentie een basisprincipe om de woordenschat van een taal te beschrijven en om te begrijpen welke woorden centraal staan in gebruik.

Berekening: een corpus wordt opgesplitst in tokens (woorden). Na normalisatie (kleine letters, lemmatizatie of vormnormalisatie) worden

Typen en patronen: sommige woorden hebben een hoge frequentie in vrijwel elke corpus, zoals lidwoorden en voegwoorden;

Toepassingen: woordfrequentie is belangrijk in lexicografie (het opstellen van woordenboeken en frequency lists), taalonderwijs (prioriteiten bij

Bronnen: frequenties hangen af van het gekozen corpus (algemene, domeinspecifieke, tijdsgebonden). Voor het Nederlands zijn er

Beperkingen: frequentie zegt weinig over semantische relevantie of context, en verschillen tussen regio’s, registers en tijd

de
voorkomen
tellen.
Relatieve
frequentie
wordt
vaak
berekend
als
(aantal
voorkomen
/
totaal
aantal
tokens)
×
100,
of
als
per
miljoen
tokens.
Er
bestaan
ook
typefrequenties
(aantal
verschillende
woorden)
en
tokenfrequenties
(aantal
voorkomende
woorden).
dit
patroon
volgt
Zipf's
law:
een
kleine
groep
woorden
heeft
een
extreem
hoge
frequentie
ten
koste
van
een
grote
groep
zeldzame
woorden.
woordverwerving),
natuurlijke
taalverwerking
(stopwoordlijsten,
taalmodellering
en
informatieopslag),
en
tekstmining.
corpora
zoals
SoNaR,
en
diverse
web-
en
bibliotheekcorpora.
kunnen
de
cijfers
sterk
beïnvloeden.