ordfrekvenser
Ordfrekvenser er et mål på hvor ofte ord forekommer i et tekstmateriale eller korpus. En frekvens kan være absolutt, altså antallet forekomster av et ord, eller relativ, som andelen av alle ord (ofte uttrykt som prosent). Frekvenslister oppsummerer et korpus ved å sortere ordene etter hvor ofte de forekommer og gir innsikt i språkbruk og stil.
Beregningsprosessen innebærer først tekstbehandling: tokenisering for å dele teksten inn i ord eller andre enheter, og
Anvendelser inkluderer språkforskning, hvor man studerer ordvalg og ordforråd, samt naturlig språkbehandling og tekstsøk. Frekvensdata brukes
Kilder og utfordringer er knyttet til korporets representativitet og størrelse. Frekvenser kan endres med språk, sjanger