Ngramfördelningar
Ngramfördelningar beskriver frekvensen av N-gram i ett textkorpus. Ett N-gram är en följd av N närliggande tokens, vanligtvis ord, men det kan också vara tecken beroende på hur texten tokeniseras. Dessa fördelningar ligger till grund för statistiska språkmodeller och många NLP-uppgifter.
Beräkning görs genom att tokenisera texten, extrahera alla N-gram och räkna deras frekvenser. Den grundläggande sannolikheten
Egenskaper: fördelningen följer ofta en tungt spetsig kurva där ett fåtal N-gram dominerar medan många är mycket
Användningar: N-grammodeller används som ord- eller teckenbaserade språkmodeller, för förutsägelse av nästa ord, stavningskontroll och maskinöversättning.
Överväganden: hur man tokeniserar, hur man hanterar interpunktion och normalisering påverkar resultaten. Val av N påverkar
Utvärdering mäts ofta med perplexity eller log-sannolikhet och används även som mått i NLP-uppgifter där N-grammodeller
---