Home

ämnesmodeller

Ämnesmodeller är en grupp statistiska metoder som används för att hitta och beskriva latenta ämnen i stora textkorpora. De bygger på antagandet att varje dokument är en blandning av ämnen och att varje ord genereras från ett av dessa ämnen. Den mest välkända och använda modellen är Latent Dirichlet Allocation (LDA). LDA är en generativ modell där varje dokument får en distribution över ämnen och varje ämne en distribution över ord. Genom inferens uppskattar man båda fördelningarna från observationerna i dokumenten. Vanliga algoritmer för inference är variational Bayes och Gibbs sampling. Utdata består av per-ämne ordfördelningar, där tydliga nyckelord definierar varje ämne, och per-dokument ämnesfördelningar, som beskriver hur mycket varje ämne förekommer i ett dokument.

Inom preprocessing används ofta tokenisering, stop words-borttagning, stemming eller lemmatization, samt konstruktion av en vokabulär. Modellen

Historiskt introducerades LDA av Blei, Ng och Jordan omkring 2003. Sedan dess har många varianter utvecklats,

används
sedan
för
olika
ändamål:
informationssökning
och
dokumentklustring,
tematisering
av
nyhetsflöden
eller
vetenskapliga
artiklar,
samt
spårning
av
hur
ämnen
förändras
över
tid
i
dynamiska
ämnesmodeller.
Ämnesmodeller
står
i
relation
till
tidigare
metoder
som
LSA
(Latent
Semantic
Analysis),
som
bygger
på
vektorutrymmes-
och
SVD-tekniker,
men
saknar
det
probabilistiska
ramverket.
bland
annat
dynamiska
ämnesmodeller
(DTM),
korrelerade
ämnesmodeller
(CTM)
och
övervakade
ämnesmodeller
(sLDA).
Vanliga
utmaningar
inkluderar
valet
av
antal
ämnen,
tolkbarhet
av
ämnen,
samt
beroendet
av
stora
mängder
data
och
känsliga
hyperparametrar.
Utvärdering
sker
ofta
via
perplexity
eller
mått
på
sammanhangsharmoni
(koherens).