Kolokasjonsdata
Kolokasjonsdata er informasjon om hvilke ord som ofte opptrer sammen i et tekstkorps. En kolokasjon er en todelt eller flerordskjede som forekommer oftere enn forventet ved tilfeldig forekomst, og kolokasjonsdata fanger disse mønstrene og styrken i deres sammenheng.
Vanlige mål for å måle kolokasjon inkluderer mutual information (MI/PMI), t-score og G-squared, samt Dice-koeffisient og
Data og prosessering: Kolokasjonsdata hentes fra store tekstkorporer i språket, for eksempel nett-korpus, aviser eller litteratur.
Bruksområder: Kolokasjonsdata brukes i leksikografi og ordbokutvikling, i språkopplæring for å vise naturlige uttrykk, og i
Utfordringer: Kolokasjonsanalyse må håndtere domenevariasjon, polysemi og multiordsuttrykk som ikke alltid fungerer som kolokasjoner i alle
Se også: kolokasjon, korpuslingvistikk, språkmodellering, leksikografi.