Home

Kolokasjonsdata

Kolokasjonsdata er informasjon om hvilke ord som ofte opptrer sammen i et tekstkorps. En kolokasjon er en todelt eller flerordskjede som forekommer oftere enn forventet ved tilfeldig forekomst, og kolokasjonsdata fanger disse mønstrene og styrken i deres sammenheng.

Vanlige mål for å måle kolokasjon inkluderer mutual information (MI/PMI), t-score og G-squared, samt Dice-koeffisient og

Data og prosessering: Kolokasjonsdata hentes fra store tekstkorporer i språket, for eksempel nett-korpus, aviser eller litteratur.

Bruksområder: Kolokasjonsdata brukes i leksikografi og ordbokutvikling, i språkopplæring for å vise naturlige uttrykk, og i

Utfordringer: Kolokasjonsanalyse må håndtere domenevariasjon, polysemi og multiordsuttrykk som ikke alltid fungerer som kolokasjoner i alle

Se også: kolokasjon, korpuslingvistikk, språkmodellering, leksikografi.

andre
statistiske
mål.
Slike
målinger
gir
et
tall
som
indikerer
om
ordene
forekommer
sammen
oftere
enn
forventet.
Prosessen
inkluderer
tekstforberedelse
som
tokenisering,
lemmatisering
og
eventuelt
part-of-speech-tagging;
deretter
identifiseres
naboordpar
(bigrams)
eller
treordsfraser
(trigrams),
og
endelige
kolokasjonslister
filtreres
gjennom
frekvens-
og
signifikanskriterier.
naturlig
språkbehandling
til
språkmodellering,
maskinoversettelse,
informasjonsgjenfinning
og
autokorrektur.
kontekster.
Lavfrekvente
kolokasjoner
er
ofte
vanskelig
å
oppdage
i
små
korpus,
og
data
kan
være
skjevfordelt
eller
inneholde
støy.
Transparens
i
definisjon
og
metodikk
er
viktig
for
pålitelighet.