ngrammianalyysejä
N-grammi-analyyseilla tarkoitetaan tilastollista menetelmää, jossa tutkitaan tekstissä esiintyviä n-merkki-jonoja eli n-grammeja. Ne voivat olla sanatasolla (word-level) tai merkkitasolla (character-level). Yleisimmät ovat unigrammit (n=1), bigrammit (n=2) ja trigrammit (n=3); suuremmat n-arvot tallentavat laajempaa kontekstia.
Mallinnuksessa käytetään usein Markovin kaltainen oletus: todennäköisyys seuraavalle sanalle tai merkille riippuu edeltävien n−1 yksiköiden kontekstista.
Käyttökohteita ovat kielenmallien rakentaminen, tekstin luokittelu, hakukoneiden tulosten parantaminen, oikeinkirjoituksen korjaus sekä kirjoittajantunnistus. Word-mallit kuvaavat semantiikkaa
Rajoitteita ovat datan sparsity ja laskennalliset kustannukset suurilla n-arvoilla, sekä herkkyys kerätyn aineiston kieliopillisille ominaispiirteille. Pehmennys,