ämnesmodeller

Ämnesmodeller är en grupp statistiska metoder som används för att hitta och beskriva latenta ämnen i stora textkorpora. De bygger på antagandet att varje dokument är en blandning av ämnen och att varje ord genereras från ett av dessa ämnen. Den mest välkända och använda modellen är Latent Dirichlet Allocation (LDA). LDA är en generativ modell där varje dokument får en distribution över ämnen och varje ämne en distribution över ord. Genom inferens uppskattar man båda fördelningarna från observationerna i dokumenten. Vanliga algoritmer för inference är variational Bayes och Gibbs sampling. Utdata består av per-ämne ordfördelningar, där tydliga nyckelord definierar varje ämne, och per-dokument ämnesfördelningar, som beskriver hur mycket varje ämne förekommer i ett dokument.

Inom preprocessing används ofta tokenisering, stop words-borttagning, stemming eller lemmatization, samt konstruktion av en vokabulär. Modellen

Historiskt introducerades LDA av Blei, Ng och Jordan omkring 2003. Sedan dess har många varianter utvecklats,

informationssökning

dokumentklustring,

i

ämnesmodeller.

i

vektorutrymmes-

probabilistiska

hyperparametrar.

sammanhangsharmoni