emnemodellering
Emnemodellering, også kjent som tema-modellering, er en gruppe statistiske metoder for å oppdage underliggende temaer i store tekstsamlinger. Metodene antar at hvert dokument består av en blanding av temaer og at hvert ord genereres fra et tema.
Den mest kjente metoden er Latent Dirichlet Allocation (LDA), som bruker en Bayesiansk generativ modell for
Inndata består av et tekstkorpus som forutbehandles ved tokenisering, fjerning av stopwords, stemming eller lemmatisering, og
Historisk sett ble LDA presentert i 2003 av Blei, Ng og Jordan; PLSA ble foreslått av Hofmann
Utvidelser inkluderer dynamiske tema-modeller (DTM) som fanger tidsmessig utvikling av temaer, veiledet tema-modellering, korrelasjonsmodeller og nevrale
Anvendelser omfatter informasjonsinnhenting, dokumentklustering, innholdsanbefaling og oppsummering av tekster.