Home

ordsekvenser

Ordsekvenser är följden av ord i en text eller yttrande, där ordens ordning och sammanlänkning ger mening och kontext. De kan användas för att studera språkliga mönster, syntaktiska relationer och semantisk sammanhang i ett språk.

Inom datavetenskap och lingvistik används begreppet särskilt inom naturenspråkbehandling (NLP) för att analysera textens strukturer. En

För att arbeta med ordsekvenser krävs ofta tokenisering och normalisering. Tokenisering delar upp texten i ord

Tillämpningar av ordsekvenser är breda. De används inom språkmodellering och textklassificering, informationssökning och indexing, stavfels- och

Utmaningar inkluderar hantering av mångordiga uttryck, språkets struktur och variationer i stavning, interpunktion samt substrukturer i

vanlig
konstruktion
är
n-gram,
ordsekvenser
av
längd
n
som
förekommer
i
följd
i
texten.
Till
exempel
finns
i
meningen
"jag
gillar
kaffe"
två
2-gram:
"jag
gillar"
och
"gillar
kaffe".
Andra
varianter
inkluderar
skip-gram,
där
ord
i
sekvensen
kan
väljas
med
mellanslag
mellan
dem
för
att
få
längre
avstånd
mellan
elementen.
eller
teckenenheter,
medan
normalisering
kan
innebära
att
konvertera
till
gemener,
ta
bort
punkttecken
eller
lemmatizera
orden.
Dessa
förbehandlingar
gör
det
möjligt
att
jämföra
och
modellera
sekvenser
på
ett
konsekvent
sätt.
grammatikkorrigering
samt
maskinöversättning.
Genom
att
analysera
vilka
ord
som
ofta
förekommer
tillsammans
kan
system
uppskatta
sannolikheten
för
olika
följen
och
därmed
generera
eller
bedöma
text.
flera
språk.
Avvägningar
görs
mellan
modellens
komplexitet
och
tillgången
till
pålitliga
träningsdata.
Se
även:
n-gram,
tokenisering,
naturlig
språkbehandling,
korpuslingvistik.