sagedusloendid
Sagedusloendid on korpuste analüüsi tööriist, mis järjestab sõnad või sõnavormid sageduse järgi antud keelekorpuses. Loendid võivad olla tokenipõhised, kus iga esinemine loetakse eraldi, või lemmatiseeritud, kus erinevad vormid koondatakse sama lemmasse. Lisaks võib koostada mitmesõnaliste väljendite loendeid või muid kategooriaid (nt sõnaliigid või terminid). Sagedusloendid annavad ülevaate keelekasutusest, sõnavarast ja süntaktist ning neid kasutatakse keeleteaduses, keeleõppes ning loomuliku keele töötlemise (NLP) tööriistades.
Konstruktsioon hõlmab korpuse valikut ja töötlust: teksti puhastamist, tokeniseerimist ja normaliseerimist (väiketähtede kasutamine, diakriitiliste märkide käsitlemine),
Kasutusvaldkonnad hõlmavad keeleõpet, sõnaraamatute ja leksikograafia koostamist, keeleteadust ning NLP-mudelite arendamist. Sagedusloendid aitavad terminoloogia kogumisel ning