Kolokasjonsdata

Kolokasjonsdata er informasjon om hvilke ord som ofte opptrer sammen i et tekstkorps. En kolokasjon er en todelt eller flerordskjede som forekommer oftere enn forventet ved tilfeldig forekomst, og kolokasjonsdata fanger disse mønstrene og styrken i deres sammenheng.

Vanlige mål for å måle kolokasjon inkluderer mutual information (MI/PMI), t-score og G-squared, samt Dice-koeffisient og

Data og prosessering: Kolokasjonsdata hentes fra store tekstkorporer i språket, for eksempel nett-korpus, aviser eller litteratur.

Bruksområder: Kolokasjonsdata brukes i leksikografi og ordbokutvikling, i språkopplæring for å vise naturlige uttrykk, og i

Utfordringer: Kolokasjonsanalyse må håndtere domenevariasjon, polysemi og multiordsuttrykk som ikke alltid fungerer som kolokasjoner i alle

Se også: kolokasjon, korpuslingvistikk, språkmodellering, leksikografi.

tekstforberedelse

part-of-speech-tagging;

kolokasjonslister

signifikanskriterier.

språkbehandling

språkmodellering,

maskinoversettelse,

informasjonsgjenfinning

i

i