teckenfrekvenser
Teckenfrekvenser är fördelningen av teckenens förekomst i en text. Den omfattar bokstäver, siffror, mellanslag och övriga symboler. Vanligt är att ange antingen absoluta frekvenser (antalet förekomster av varje tecken) eller relativa frekvenser (andelen av alla tecken). Beroende på syfte kan man besluta hur skiftläge och vilka tecken som räknas.
Så beräknas teckenfrekvenser: samla ett textkorpus, definiera teckenuppsättningen och hur man hanterar gemener vs versaler. Förbehandla
Användningar inkluderar språkigenkänning och språkidentifiering, textanalys i NLP, kryptografi (frekvensanalys av substitution ciphers), textkompression (Huffman- eller
Frekvenser följer ofta Zipfs lag och andra långsiktiga mönster i naturligt språk; vissa tecken är mycket vanliga