Ngramfördelningar - Infinite Lexicon - Infinite Lexicon

Ngramfördelningar

Ngramfördelningar beskriver frekvensen av N-gram i ett textkorpus. Ett N-gram är en följd av N närliggande tokens, vanligtvis ord, men det kan också vara tecken beroende på hur texten tokeniseras. Dessa fördelningar ligger till grund för statistiska språkmodeller och många NLP-uppgifter.

Beräkning görs genom att tokenisera texten, extrahera alla N-gram och räkna deras frekvenser. Den grundläggande sannolikheten

Egenskaper: fördelningen följer ofta en tungt spetsig kurva där ett fåtal N-gram dominerar medan många är mycket

Användningar: N-grammodeller används som ord- eller teckenbaserade språkmodeller, för förutsägelse av nästa ord, stavningskontroll och maskinöversättning.

Överväganden: hur man tokeniserar, hur man hanterar interpunktion och normalisering påverkar resultaten. Val av N påverkar

Utvärdering mäts ofta med perplexity eller log-sannolikhet och används även som mått i NLP-uppgifter där N-grammodeller

---

sannolikhetsuppskattning).

generalisering.

N

tillförlitliga

glättningstekniker

Laplace/Lidstone,

Kneser-Ney-smoothing

beräkningskrav;

N

förbehandling.