Emneopdagelse
Emneopdagelse er processen med at identificere underliggende tematikker i store tekstkorpora. Gennem uovervåget eller semiuovervåget læring søges mønstre i dokumenters ordforråd, som resulterer i emner og forbindelser mellem dokumenter og emner. Formålet er at strukturere ustruktureret tekst og lette søgning og analyse.
Typiske metoder omfatter probabilistiske modeller som latent Dirichlet allocation (LDA), PLSA og HDP, samt ikke-negative matrix
Udvidelser omfatter dynamiske emner, hierarkiske emnemodeller og online/streaming emneopdagelse til store og løbende korpora.
Anvendelser omfatter analyse af nyheder og sociale medier, digital humaniora, anbefalingssystemer, dokumentsøgning og tværfaglig forskning.
Udfordringer inkluderer valg af antal emner og tolkbarhed, målinger af emnekohærens, håndtering af domænespecifik terminologi, korte